Формат lossy что это

Типы аудиофайлов с потерями – чем отличается от Lossless

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Слово Lossy используется в цифровом аудио для описания типа сжатия, используемого для хранения звуковых данных. Алгоритм, используемый в формате аудио с потерями, сжимает звуковые данные таким образом, что отбрасывает некоторую информацию. Эта потеря сигнала означает, что закодированный звук не идентичен оригиналу.

Аудио с потерями производит звук более низкого качества и имеет меньший размер файла.

Сжатие с потерями также называют необратимым сжатием, потому что невозможно восстановить данные, которые были удалены.

Какая разница между Lossy и Lossless

При создании MP3-файлов путём копирования одного из ваших музыкальных компакт-дисков, некоторые детали из оригинальной записи теряется, что делает его с форматом с потерями. Этот тип сжатия не ограничивается только аудио; например, файлы изображений в формате JPEG также сжимаются с потерями.

Этот метод является противоположностью сжатия звука без потерь, используемого для таких форматов, как FLAC, ALAC и другие. Аудио в этом случае сжимается таким образом, что данные не удаляются. Звук идентичен оригинальному источнику.

Когда дело доходит до совместимости, сжатые с потерями файлы имеют преимущество. В то время как файлы Lossless поддерживаются только некоторыми устройства и приложения, аудио формат с потерями такой как МР3 будет работать практически на любом устройстве.

Примеры типов аудиофайлов с потерями и без потерь
С потерямиLossless
AA3ALAC
AACFLAC
MP3APE
MPCSHN
OGGTTA
WMAWV

Как работает сжатие аудио с потерями

Сжатие с потерями делает определенные предположения о частотах, которые человеческое ухо вряд ли обнаружит.

Когда песня преобразуется в аудиоформат с потерями, такой как AAC, алгоритм анализирует все частоты, а затем отбрасывает частоты, которые ухо не должно обнаружить. Эти низкие частоты отфильтровываются или преобразуются в моносигналы, которые занимают меньше места на диске.

Другая техника отбрасывает очень тихие звуки, которые слушатель вряд ли заметит, особенно в более громкой части песни. Такой подход уменьшает размер аудиофайла, сохраняя при этом максимально возможное качество звука.

Что происходит с аудио при сжатии

Сжатие с потерями вводит артефакты. Эти артефакты представляют собой нежелательные звуки, которых нет в оригинальной записи, но которые являются побочными продуктами сжатия. Этот шум ухудшает качество звука и заметно, когда музыкальные файлы конвертируются с использованием низких скоростей передачи.

Различные типы артефактов влияют на качество записи. Искажения являются одним из самых распространенных артефактов. Например, искажение делает барабаны слабыми – без какого-либо реального удара. Также могут быть затронуты голоса в песне, что приведет к грубому звучанию вокала и отсутствию детализации.

Во многих случаях обычные слушатели не могут обнаружить разницу между алгоритмом кодирования с потерями и без потерь, хотя некоторые аудиофилы, использующие очень дорогое оборудование, утверждают, что слышат разницу. Разница в качестве становится заметной только тогда, когда в игру вступают очень низкие скорости передачи данных или агрессивные алгоритмы сжатия.

Зачем сжимать аудио файлы?

В большинстве цифровых аудиоформатов используется какое-то сжатие для эффективного хранения звука. Без сжатия размеры файлов были бы очень большими.

Например, типичная 3-минутная песня, хранящаяся в виде файла MP3, занимает от 4 МБ до 5 МБ. Использование формата WAV для хранения той же самой песни, но без сжатия, приводит к размеру файла приблизительно в 30 МБ – как минимум в шесть раз больше. Меньше песен помещается на ваш смартфон или жесткий диск, когда вы выбираете несжатые аудио форматы.

Как сжать аудио файлы

Есть много способов превратить аудио файл без потерь в файл с потерями. Любая программа, которая конвертирует в формат с потерями, содержит необходимые инструменты для создания аудиофайла с потерями. Просмотрите любой список бесплатных конвертеров аудиофайлов и поэкспериментируйте с различными приложениями, которые конвертируют форматы аудиофайлов в MP3 и другие форматы с потерями. Разные приложения могут давать разные результаты.

Источник

Битрейт, lossy и lossless – есть ли разница для обычного уха?

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Если вдруг обычного человека «занесет» на форум, где собираются те, кто считает себя знатоками качественного звука, то он обнаружит, что процентов 80 тамошних аудиофилов рассуждают о проблеме битрейта. «Может ли настоящий меломан отличить запись с хорошим битрейтом от «лосси»-файла или нет» — споры на эту тему с аргументами за и против не утихают уже в течение достаточно долгого времени. Это доказывает то, что трудно или почти невозможно заставить людей отказаться от своих убеждений, переступить через свое «эго», даже если факты свидетельствуют против их заблуждений. В нашей статье мы дадим вам немного информации о битрейте и о том, как он соотносится с практическим опытом прослушивания музыки.

Что такое битрейт?

Если вы любите слушать музыку, то наверняка слышали термин «битрейт» и раньше, поэтому, вероятно, имеете общее представление о том, что он означает, но мы попробуем освежить вашу память и приведем здесь «официальное» определение. Итак, битрейт (от англ. bit rate) – это, по сути, поток — скорость прохождения битов информации, т.е. количество данных, обработанных в течение определенного периода времени. В аудио он обычно измеряется в килобитах в секунду. Например, музыка, которую вы слушаете на iТunes, имеет поток 256 килобит в секунду.

Чем выше битрейт трека, тем больше нужно пространства, которое потребуется ему на вашем компьютере. Поэтому обычной практикой стало сжатие аудио CD для того, чтобы больше музыки можно было разместить на жестком диске (ну или на «облачном», типа Dropbox, или любом другом). Вот отсюда и «растут ноги» многолетнего спора о качестве музыки из файлов «с потерями» (lossy) и файлов «без потерь» (lossless).

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

В чем разница между lossy и lossless?

Когда мы говорим «без потерь», имеется в виду, что при перезаписи мы не изменили исходный файл, и он звучит, как оригинальный CD-трек. Чаще всего, однако, мы сохраняем музыку «с потерями». Типичный lossy-альбом (MP3 или AAC), вероятно, занимает 100 МБ или около того. Тот же альбом в формате «без потерь», таких как FLAC или ALAC (также известный как Apple Lossless) занял бы около 300 МБ. По этой причине записывание «с потерями» распространено для быстрого скачивания и сохранения большего места на диске.

Проблема в том, что, когда вы сжимаете файл, чтобы сэкономить место, вы удаляете блоки данных. К примеру, когда вы делаете снимок PNG экрана компьютера, и сохраняете его в формате JPEG, вы получаете «дефект» на определенных частях изображения, что делает его практически тем же, но с некоторой потерей четкости и качества. Рассмотрите изображение ниже в качестве примера: справа оно было сжато в формате JPG, и его качество пострадало в результате (если присмотреться к цвету машины, к деталям и к фону). То же самое происходит и с музыкальными файлами, которые «сжимают» в MP3, если такое сравнение корректно. Потери качества, заметные для человеческого уха или глаза, называются артефактами сжатия.

Понятно, что файлы «с потерями» — это компромисс, но очень существенный, когда мы говорим о месте на жестком диске, которое может иметь большое значение для 32 Гб iPhone. Но существуют и различные уровни lossless: 128 килобит в секунду, например, занимает очень мало места, но будет более низкого качества, чем 320-ти килобитный файл, который, в свою очередь, имеет более низкое качество, чем файл в 1411 кбит/с (который считается настоящим lossless). Тем не менее, есть много аргументов относительно того, что большинство людей могут даже не услышать разницу между двумя битрейтами.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Так ли важен битрейт?

Поскольку хранение файлов становится все более простым и дешевым, музыка с высоким битрейтом становится все более популярной. Но всегда ли она стоит вашего времени, усилий и дискового пространства?

Ответ на этот вопрос не прост, и до сих пор аудиофилы ломают копья в схватках, пытаясь решить уравнение с двумя неизвестными. Первая часть уравнения зависит от технической реализации. Если вы используете дорогие наушники или колонки хорошего качества, то можете слушать музыку в большом диапазоне звука. И тут-то низкий битрейт становится заметным и можно определить, что в некачественных МР3-файлах отсутствует определенный уровень детализации, тонкие фоновые треки могут быть неслышны, максимумы и минимумы не будут столь динамичными, или вы можете просто услышать другие значительные искажения звука. В этих случаях lossless-формат оправдан.

Но если вы слушаете любимую музыку через пару дешевых и, в общем-то, дрянных наушников на вашем iPod, вы не заметите разницы между 128-кбитным файлом и файлом в 320 кбит, не говоря уже о сравнении 320-ти килобитного файла и lossless-файла в 1411 кбит. Помните ту картинку с автомобилем? Музыка, идущая через ваши наушники, похожа на уменьшенное изображение, и вы не услышите артефактов сжатия, так как наушники не имеют достаточного диапазона звучания.

Другая часть уравнения — это ваши собственные уши. Большинство людей просто недостаточно внимательны или не имеют навыков аудирования, чтобы определить разницу между двумя различными битрейтами. Этот навык до какой-то степени можно развить с течением времени, но иногда и нет. В этом случае не особенно важно, какой битрейт использовать, не так ли? В том-то и дело, что очень трудно услышать разницу между файлом «без потерь» и 320-ти килобитным MP3, если вы не звукорежиссер или музыкант с абсолютным слухом. Для подавляющего большинства людей 320 кбит/с более чем достаточно для прослушивания.

Большим заблуждением также будет считать, что чем выше битрейт, тем лучше качество трека, так как более простые аудио-сигналы будут сжиматься лучше и иметь меньший битрейт, а более сложные — хуже. Именно поэтому классическая музыка в lossless-файлах имеет меньший битрейт, чем, к примеру, рок-музыка. Идеальной является запись с переменным битрейтом, но с высоким качеством. Поэтому значение битрейта ни в коем случае не является основным показателем качества звукового материала.

Подведем итоги. Lossless-файлы более перспективны в том смысле, что вы всегда сможете «сжать» музыку, но никогда не сможете вернуть ее качество обратно, поэтому придется повторно перезаписывать ее с CD. Это — проблема онлайновых музыкальных магазинов и фонотек: если вы создали огромную библиотеку iTunes-музыки и потом решили, что вам нужна она же, но с более высоким битрейтом, все придется начинать заново. Но вот уже ровно 20 лет MP3 является отличным звуковым стандартом, и это вряд ли изменится в ближайшее время, так что, если вы не планируете стать воинствующим фанатиком-аудиофилом, вам незачем переживать из-за качества записи ваших любимых песен.

Источник

Что такое lossless, зачем он нужен, что с ним делать и как им пользоваться?

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Хоть сеть просто кишит информацией по теме, подобные вопросы звучат очень и очень часто, просто на каждом шагу на просторах интернета. Люди просто пока не знают, что это такое и что с ним делать вообще, с этим «лосем» )). Для многих это слово кажется каким-то запредельно заумным и вообще просто непостижимым для понимания простому смертному.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Остановлюсь немного подробней на работе с файлом CUE. Открыть его для редакции и просмотра можно простым блокнотом:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Что мы видим, красным помечены мои комментарии, их нет в оригинальном cue файле:

Тут иногда бывает засада! Иногда эта строка может выглядеть так:

FILE «Lounge_1_by_RoNikEr.wav» WAVE

И так далее. Все эти данные можно редактировать с помощью обычного блокнота по своему усмотрению. Если у оригинального CD есть CD-text, все эти данные копируются оттуда. Если CD-text’а нет, можно «вбить» все названия вручную, пользуясь треклистом на обратной стороне коробки диска-оригинала. Обычно принято подробный треклист CD располагать там, хотя исключения бывают. Во всех моих сборниках вся необходимая информация присутствует.

Вот как выглядит сборник «Lounge_1_by_RoNikEr» в моём foobar2000, если открыть образ с помощью CUE:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Остановимся ещё немного на классификации образов.

Чем же отличаются образы дисков с данными (установочные игр, программного обеспечения и т. д.) от образов аудио-дисков в lossless форматах? Можно\нужно ли воспроизводить последние, например, с помощью DAEMON Tools?

Мой Telegram-канал, в котором вы найдете сборники музыки в lossless-качестве (формат FLAC):

Источник

Аудиоформаты FAQ

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Содержание

Содержание

Стремительное развитие компьютерных технологий и интернета привело к необходимости создания цифровых форматов, которые могли бы храниться и воспроизводиться на компьютерах без использования каких-либо физических носителей. В результате были разработаны различные виды цифровых аудиоформатов.

Виды цифровых аудиоформатов

Все цифровые аудиоформаты можно разделить на 3 группы в зависимости от того, какой-именно принцип (кодек) используется для сжатия аудиоданных, а именно:

Lossy форматы

Это аудиоформаты, в которых используется метод сжатия аудиоданных с потерями. То есть, при кодировании цифровой звуковой записи любым из lossy кодеков в аудиоданные вносятся определенные изменения. Это позволяет существенно снизить размер полученного файла, но в то же время приводит к ухудшению качества звука. К наиболее популярным форматам «с потерями» можно отнести MP3, WMA, Ogg Vorbis, AAC и другие.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Преимущества и недостатки lossy аудиоформатов

Основным преимуществом lossy форматов является небольшой размер файлов при сохранении приемлемого для прослушивания качества. Кроме того, такие аудиоформаты поддерживаются подавляющим большинством электронных устройств и музыкальных проигрывателей, в том числе домашними аудиосистемами, магнитолами и MP3-плеерами.

Ключевой недостаток – потеря качества звучания при сравнении с оригиналом. Если провести конвертацию аудиозаписи с оригинального лицензионного Audio CD в формат lossy, то при проигрывании полученного файла звук будет отличаться от исходника в худшую сторону.

Правда ли, что lossy форматы звучат плохо?

Вовсе нет. Во-первых, при кодировании в lossy присутствует возможность выбора степени сжатия и качества звучания. К примеру, если мы говорим о формате MP3, то для записи голоса (аудиокниги, звуковых дорожек к учебнику иностранного языка) достаточно будет качества CBR 128 kbps, а вот для музыки идеальный вариант – CBR 320 kbps. Стоит отметить, что CBR является сокращением от «ConstantBit Rate», что означает «Постоянный битрейт».

Во-вторых, в процессе сжатия используется принцип удаления из записи тех частот и звуков, которые человек не может услышать по своей природе. Существует мнение, подтвержденное многими экспериментами, что музыкальные композиции в формате MP3 высокого качества (CBR 320 kbps) невозможно отличить на слух от оригинальной записи или купленного в магазине лицензионного AudioCD.

Lossless аудиоформат

Это разновидность цифровых форматов для передачи звука, в которых кодирование аудиоданных происходит без потерь качества. Звучание никак не будет отличаться от исходника, будь то лицензионный музыкальный компакт-диск (формат CDA) или оцифровка виниловой пластики, сохраненная в несжатом формате WAV (для Windows) или его аналоге AIFF (для iOS). Наиболее популярные форматы без потерь это FLAC, Monkey’s Audio, ALAC, WavPack, MWA Lossless.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Благодаря этому lossless аудиоформаты идеально подходят для прослушивания музыки на хорошей аудиоаппаратуре. Например, на качественной домашней акустике или Hi-Fi системах и наушниках высокого класса.

Преимущества и недостатки lossless форматов

Главное преимущество lossless аудиоформатов заключается в том, что в процессе их кодирования и раскодирования программа не удаляет никаких данных из звукового потока. Благодаря этому при воспроизведении таких файлов слушатель получает оригинальное, неизмененное звучание.

Но у аудиоформатов с сжатием без потерь есть и весомый недостаток. Дело в том, что многие устройства для проигрывания звуковых файлов все еще не поддерживают такие форматы. Решить проблему можно, купив соответствующий вид аппаратуры, к примеру, портативный Hi-Fi плеер или мультимедийный проигрыватель, а также домашнюю аудиосистему с поддержкой lossless аудиоформатов.

Если же вы слушаете музыку на стационарном компьютере или ноутбуке, то для работы с такими форматами можно использовать популярные виды программ, к примеру, foobar2000, Winamp, VLC MediaPlayer или jetAudio.

Источник

Психоакустика, lossless и что еще я знаю об аудио-стандартах

Относительно недавно попалось мне на глаза хоть и студенческое, но все-таки, на мой взгляд, интересное видео из «Курилки Гутенберга» под названием «Психоакустика: звуковые иллюзии». Видео вдохновило меня порыться уже в своих студенческих конспектах и материалах…

Признаюсь честно, я не очень любил предмет Audio Coding, будучи студентом TU Ilmenau на программе Communication and Signal Processing — стресс и юношеский максимализм делали свое темное дело. Однако, со стороны чаще я слышал противоположную точку зрения: «Классный предмет, че ты жалуешься? Один из ваших лекторов — сам Карлхайнц Брандербург — лови момент!»

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Один из главных разработчиков формата MP3, если вы не узнали, позирует в наушниках. (источник изображения)

По прошествии времени я, конечно, пересмотрел свой взгляд на данный предмет. Знание на стыке цифровой обработки сигналов, биологии, физики и вычислительной техники — это же круто! Одна тема уже упомянутой психоакустики чего только стоит.

И вот однажды мне пришла в голову очередная авантюрная мысль, и я сказал себе: «Почему бы не написать научно-популярную статью про аудиокодинг? Так сказать, «для самых маленьких» — для таких же студентов, коим был и я»?

Структура статьи

Перечислим темы, о которых будем говорить.

Что ж, для матерых знатоков темы вряд ли найдется что-то новое, вещи довольно базовые, однако я буду рад дополнениям и корректировкам в комментариях! Всем заглянувшим заранее спасибо!

Введение

Я думаю, ни для кого из интересовавшихся темой аудиостандартов не секрет, что существуют в Мире две большие (и непримиримые между собой) парадигмы развития этих самых стандартов. А именно:

За первыми закрепилось звание тяжеловесных стандартов для меломанов. За вторыми стоит многолетняя практика применения: начиная от некачественных подборок музыки на дисках для MP3-плееров, кончая современными (достаточно качественными) потоковыми сервисами прослушивания музыки.

Если в двух словах, то первые стараются максимально точно воспроизвести исходный аудио-файл, убирая лишь избыточность (см. redundancy), а вторые на основе целой теории о том, как человек воспринимает звук, стараются максимально сжать исходный аудио-файл при минимально возможных потерях качества.

А теперь предлагаю поговорить об обеих концепциях чуть подробнее.

Перцептивные кодеки

Начнем со второй группы кодеков, а именно с их обобщенной схемы:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Рис. 1. Обобщенная структурная схема перцептивного кодирования.

Штука слегка специфичная, однако, людям работающим в сфере цифровой обработки сигналов, я думаю, знакомая. Нужен этот блок для того, чтобы разбить входной сигнал на диапазоны и через это иметь больше степеней свободы для компрессии.

Если кто-то интересуется тематикой могу предложить следующие ресурсы:

Это классика. Проходят данные темы обыкновенно в купе с азами теории информации, и потому по данной тематике есть целая база знаний из всевозможных семинаров на различных языках программирования (поэтому сегодня обсуждать подробно мы их не будем).

И вот по данному пункту хотелось бы поговорить более подробно. Ведь именно он и является основной точкой расхождения двух названных выше парадигм.

И начнем мы, так сказать, с самых основ — с биологии.

Анатомия — это ужас как интересно

Прежде чем говорить о том, как именно человек воспринимает звук, и какие математические модели под это можно подвести, поговорим о главном: что вообще позволяет человеку воспринимать звук?

Конечно же, слуховая система (auditory system)! А если быть точным, то преимущественно внутреннее и среднее ухо и их конкретные составляющие:

Рис. 2. Внутреннее строение человеческого уха.

Всё, вроде бы, интуитивно понятно, при условии некоторого багажа школьных знаний. Затруднение обычно вызывает только улитка: что значит эта заумная фраза: «индуцирует бегущие волны по длине базилярной мембраны»?

Как это ни парадоксально, но тут тоже всё достаточно просто. Во-первых, перечислим из чего состоит ушная улитка:

Барабанная перепонка передаёт звуковые колебания косточкам среднего уха; Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что этокосточки среднего уха передают колебания переимфе и эндолимфе; Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что этопод действием колебаний перелимфы и эндолимфы колеблется и базилярная мембрана; Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что этоиз-за движений базилярной мембраны волосковые клетки вырабатывают сигналы, которые передаются нервным клеткам.

Подробнее предлагаю прочитать здесь и здесь.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 3. Внутреннее строение человеческого уха: базилярная мембрана в «развернутом» виде (ссылка на источник иллюстрации).

Благодаря форме базилярной мембраны (сужается к основанию) и тому, что к разным участкам данной мембраны подсоединяются клетки, отвечающие за восприятие разных частот, ушная улитка — это нелинейная система с частотной избирательностью.

А что если посмотреть на ушную улитку глазами цифровой обработки сигналов?

С точки зрения ЦОС, ушная улитка — это банк полосовых фильтров. При этом фильтры сильно перекрывают друг друга.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Рис. 4. Отклики тона в разных местах базилярной мембраны [1, c. 63].

Что изображено на рисунке:

Добрые люди нарисовали уже и полезные структурные схемы:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 5. Часть схемы модели восприятия (см. PEMO Model), касающаяся базилярной мембраны.

Перекрывающиеся фильтры показаны, на мой взгляд, очень наглядно.

В какой-то момент знание об ушной улитке, как о банке фильтров, решили как-то уложить в простую и доступную модель. В ходе ряда аудиторных экспериментов [1, c.82-85] ученые определили, что:

у частотных групп, на которые базилярной мембраной разбивается аудио-сигнал, фиксированная ширина полосы;

ширина полосы частотной группы зависит от средней частоты группы нелинейно.

Более того, для удобства, договорились считать, что фильтры нашей слуховой системы прямоугольные.

Всё вышеперечисленное в конечном итоге было обобщено в понятие шкалы Барков — шкалы критических диапазонов частот (см. RWTHxCA101 — Critical bands), ширина которых нелинейно зависит от средней частоты:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Рис. 6. Шкала Барков (источник).

Давайте, запомним этот факт, он нам еще пригодится.

Пока искал иллюстрации по шкале Барков наткнулся на это изображение:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
bark scale by spooninglive

Хорошо, теперь мы чуть лучше представляем, что за система позволяет нам слышать. Более того мы выяснили, что органы слуха — это нелинейная частотно-избирательная система. Мы даже выяснили как устроена ее избирательность с точки зрения ширины критических диапазонов.

Но мы пока не говорили, одинаково ли мы слышим те или иные частоты. Быть может, есть какие-то подходящие эксперименты?

Порог в тишине

Конечно же, такие эксперименты есть. Более того, проведены такие эксперименты уже давно. Например, Эберхард Цвикер описывает один из них следующим образом [1, c. 63]:

Перед испытуемым, регистрирующим порог слышимости, ставится задача изменять при помощи переключателя уровень звукового давления так, чтобы с уверенностью отмечались моменты едва заметного появления и исчезновения звука. При этом перо самописца вычеркивает на бумаге зигзагообразную полосу, состоящую из вертикальных штрихов, в пределах которой окажутся те значения давления, для которых нет уверенности, был ли слышен звук или нет.

В конечном итоге, собрали 100 таких замеров от людей обоих полов в возрасте 20-25 лет и посчитали усредненные значения.

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 7. Усредненные кривые порога слышимости для молодых испытуемых со здоровым слухом. [1, c. 64]

А потом медиана (кривая между 10% и 90% на рис. 7) была названа порогом слышимости (или «порогом в тишине«) и вошла в стандарты (в том числе и наш ГОСТ).

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 8. Порог слышимости в тишине (threshold in quiet, hearing threshold), уровень риска повреждения органов слуха (risk of damage), уровень болевых ощущений (threshold of pain) (источник). Да, боль не предупреждает об опасности, а просто констатирует факт негативного влияния на слух.

Под это есть даже специальная формула:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

где Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это— это, как нетрудно догадаться, частота в килогерцах.

Проговорим суть порога слышимости ещё раз: чтобы какой-либо звук мог быть услышан, он должен превысить значение «порога в тишине». То есть эволюция все расставила так, что мы почти гарантированно услышим звуки вблизи 2-4 кГц, однако, почти так же гарантированно не услышим слишком низкие и слишком высокие частоты.

Порог в тишине в том виде, в котором он представлен на рисунке 5, актуален как правило для усредненной группы именно молодых людей. С возрастом восприятие высоких частот меняется:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

В свое время этот факт, насколько я знаю, стал основой для тиражирования среди подростков ультразвукового сигнала вызова телефона: предполагалось, что взрослые (например, учителя) его слышать не будут, и поэтому не станут раздражаться на посторонние шумы. Ну, в годы моей молодости ничего, кроме «пыток» одноклассников раздражающим и назойливым звуком посреди урока со стороны кучки «пассионариев», эта идея не принесла…

Почему к данной кривой применяется словосочетание «в тишине»?

Потому что предполагается, что так люди воспринимают звук в отсутствии посторонних шумов. При появлении шума порог будет, как бы, «приподниматься». В случае широкополосного шума картина станет такой:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 8. Уровни порогов маскирования (термин обсудим ниже) белым шумом в зависимости от частоты тестового тона. Пунктиром отмечен уклон (slope) кривых на высоких частотах. [2, c. 62]

А в случае узкополосных шумов?

Маскинг (на пальцах)

В случае узкополосных шумов порог слышимости будет выглядеть так:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 9. Уровни, показывающие начало слышимости тестового тона, замаскированного тонами шириной критических диапазонов с центральными частотами 250 Гц, 1 кГц и 4 кГц и уровнем 60 дБ. [2, c. 64]

Быть может, моя следующая аналогия будет не совсем точной, но я вот смотрю на эту иллюстрацию и вижу, будто покрывало (порог слышимости) приподнимают снизу чем-то, вроде палки (тон) — и появляются скаты во все стороны (влияние на соседние частоты). И все, что под покрывалом, скрыто от наблюдателей. Замаскировано…

Этот феномен называют эффектом частотного маскирования (frequency masking). То есть шумы маскируют собой более слабые сигналы в частотной области.

Иными словами достаточно сильный тон влияет еще и на своих соседей. Выглядит это примерно так:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 10. Пример маскирования одного тона другим тоном более высокой частоты (источник).

То есть, иначе говоря, более сильный тон замаскировал своего более слабого соседа, и поэтому сосед перестал быть заметным для слуховой системы. Функция, которая определяет порог маскирования, называется функцией распространения (spreading function) и вычисляется на основе эмпирически полученных коэффициентов и шкалы Барков (формулы можно найти, например, в Википедии — см. Одновременная маскировка (Психоаккустика)).

Существует, к слову, и временное маскирование (маскирование во временной области): громкий сигнал маскирует собой как следующий за ним более слабый, так и предшествующий ему более слабый сигналы. Согласен, вторая часть утверждения звучит немного странно, но нужно все же держать в голове, что органы слуха и восприятия — это система со своей инерцией и задержками.

Возникает вопрос: зачем вообще тратить память на запись того, что в принципе не будет услышано?

Именно эта идея и стала базовой для перцептивных стандартов: удаляется не только избыточность на уровне эффективного кодирования, но и избыточность с точки зрения модели восприятия (irrelevance). Проводится такая «очистка» нерелевантных звуков на этапе квантования.

Подробно о процедуре квантования на основе психоаккустической модели можно прочитать здесь: Audio Coding Quantization and CodingMethods by Prof. Dr.-Ing. Karlheinz Brandenburg.

Суть состоит в том, что внутри каждого диапазона, полученного со входа банка фильтров, динамически вычисляется порог маскирования, и на его основе каждый отсчет квантуется и кодируется с таким шагом квантования, чтобы шум квантования оставался ниже некоторого допустимого порога.

А что же у lossless?

Если кратко, то данные форматы придерживаются двух основных принципов:

Структурная схема кодера выглядит так [3]:

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это
Рис. 11. Lossless-кодер.

Сначала аудио-сигнал разбивается на фреймы (кадры) в целях достижения изменяемости: работа осуществляется не со всем тяжеловесным исходником, а только с его частью — с фреймом (не слишком большим, но и не слишком малым).

Далее идет первый этап избавления от избыточности — декорреляция отсчетов (сэмплов) внутри фреймов. Звучит немного заумно, но на практике ничего сложного. Проследим на примере самой, пожалуй, распространенной реализации — на примере кодирование с предсказанием (на основе линейных фильтров):

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 12. Схема кодера с предсказанием.

Предиктор (предсказатель) высчитывает некоторое значение, предполагаемое на основе предыдущих отсчетов; исходя из него вычисляется ошибка предсказания e(n), и именно она сжимается дальше эффективными кодеками. За счет этого происходит некоторая экономия памяти без потери качества.

Здесь важно, чтобы кодер и декодер были абсолютно идентичными, вплоть до выбора метода округления (обычно выбирается стандарт из IEEE).

Формат lossy что это. Смотреть фото Формат lossy что это. Смотреть картинку Формат lossy что это. Картинка про Формат lossy что это. Фото Формат lossy что это

Рис. 13. Схема декодера с предсказанием.

Более подробно о предиктивном кодировании, а также о гибриде lossless с перцептивными подходами можно прочесть здесь: Prediction and Lossless Audio Coding Prof. Dr.-Ing. Karlheinz Brandenburg.

Вот такая лаконичная idea behind, в общем-то.

Мысли вслух (вместо послесловия)

Надеюсь смог хоть немного приоткрыть завесу идей, лежащих в основе. Рад буду вашим замечаниям и комментариям!

Слушайте хорошую музыку хорошего качества удобным для вас способом!

Литература

Цвикер Э., Фельдкеллер Р. Ухо как приемник информации //М.: Связь. – 1971.

Zwicker E., Fastl H. Psychoacoustics: Facts and models. – Springer Science & Business Media, 2013. – Т. 22.

M. Hans and R. W. Schafer, «Lossless compression of digital audio,» in IEEE Signal Processing Magazine, vol. 18, no. 4, pp. 21-32, July 2001.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *