Системы понижения разрядности в мастеринге (Dither, Дизеринг)
Системы понижения разрядности в мастеринге
Автор: Алексей Лукин
Наиболее популярным форматом для распространения музыки в настоящее время является CD-DA - звуковой компакт-диск. Звук на компакт-диск записывается в некомпрессированном формате PCM с частотой дискретизации 44,1 кГц и разрядностью 16 бит. Качество звука на компакт-диске устраивает абсолютное большинство слушателей. Однако наиболее критически настроенные слушатели отмечают некоторые недостатки CD-DA, связанные с недостаточным динамическим диапазоном, эффектами 16-разрядного квантования и "звоном" интерполяционных фильтров. В этой статье рассмотрим, как можно минимизировать артефакты квантования при мастеринге аудио для компакт-дисков или других цифровых носителей.
Разрядность аудио и эффекты квантования
Как известно, для представления звука в цифровой форме аналоговый сигнал дискретизируется по времени и квантуется по амплитуде, то есть непрерывный сигнал заменяется дискретными его значениями - отсчетами в некоторых точках. Частота дискретизации 44,1 кГц означает, что по времени эти отсчеты берутся 44100 раз в секунду. Разрядность 16 бит означает, что амплитуда каждого такого отсчета может принимать одно из 65536 возможных значений. Теоретически динамический диапазон формата 16/44,1 составляет 98,5 дБ.
Много это или мало? Рассмотрим на примере. Пусть мы хотим записать на компакт-диск симфонический концерт. Динамический диапазон классической музыки часто достигает 40…50 дБ. Получается, что во время самых тихих участков записи (-45 дБ) на квантование по амплитуде остается всего около 8 бит. Все наверняка знают, как звучат восьмибитные записи. Кроме высокого уровня шума, в таких записях часто встречаются и более неприятные артефакты квантования в виде гармонических искажений, которые зависят от уровня сигнала.
При записи звука на студии все чаще используются форматы аудио с более высокой разрядностью, чем 16 бит. За последние несколько лет 24-битный формат стал стандартом для высококачественной звукозаписи, и в нем работают большинство студий. При подготовке студийных фонограмм к записи на CD встает необходимость преобразования разрядности записей в 16 бит. Несмотря на кажущуюся простоту этой операции, для ее выполнения существуют различные методы. Их качеством в значительной степени определяется звучание получающейся 16-битной фонограммы.
Как видно из примера с классической музыкой, относительная величина искажений в цифровом формате зависит от уровня сигнала. Искажения тем заметнее, чем ниже уровень сигнала. Поэтому одно из возможных решений - максимизация уровня сигнала перед снижением разрядности, что делается с помощью приборов динамической обработки - компрессоров и лимитеров. Однако сжатие динамического диапазона фонограммы, которое при этом достигается, не всегда благоприятно отражается на звучании. Если отвлечься от артефактов, вносимых приборами динамической обработки, то сужение динамического диапазона само по себе может приводить к потере музыкальной выразительности. Поэтому для записей с широким динамическим диапазоном (классика, джаз и др.) желательно применять наиболее качественные методы снижения разрядности.
Округление
Рассмотрим самый простой способ понизить разрядность аудио. Он заключается в округлении каждого отсчета исходного 24-битного аудио к ближайшему допустимому значению амплитуды в 16-разрядной сетке квантования. Разновидность этого метода - усечение (truncate) - это округление к ближайшему снизу допустимому значению.
Будем называть шумом квантования сигнал, представляющий собой разницу между исходным 24-битным и квантованным 16-битным сигналом. Поскольку 16-битный сигнал является суммой исходного сигнала и шума квантования, то изучать свойства систем снижения разрядности можно, изучая шум квантования, который возникает в них для различных входных сигналов.
Очевидно, что метод округления дает минимально возможную амплитуду шума квантования для каждого отсчета. Однако получающийся при этом шум квантования не является наилучшим с точки зрения звучания. Он существенно коррелирован с исходным сигналом, и на спектре шума квантования видны пики - гармонические искажения (рисунки 1, 2). Поэтому результирующий 16-битный сигнал имеет характерное "грязное" звучание, причем искажения сильно меняются со временем в зависимости от сигнала.
http://img20.imageshack.us/img20/5379/l01.gif
Рис.1. 24-битный сигнал и 16-битный сигнал,
полученный из него округлением
http://img196.imageshack.us/img196/1174/l02m.gif
Рис.2. Спектр 24-битного тестового сигнала и
16-битного сигнала, полученного из него округлением. Пик этого сигнала скрыт за пиком 24-битного сигнала
Где встречается округление?
К сожалению, округление очень часто применяется при работе с цифровым звуком. Во многих звуковых редакторах именно округление используется при редактировании 16-битного звука. Часто к артефактам округления приводят и неправильно выполненные операции dithering и noise shaping (см. далее). Искажения звука в результате округления могут быть не сразу замечены, но эти изменения приводят к необратимому ухудшению качества фонограммы.
Как избежать округления?
Работая со звуковыми редакторами или другими программами обработки звука, нужно стараться совершать все преобразования в формате с повышенной разрядностью (24 или 32 бита).
В этом случае вы почти гарантированы от округления. Если же работа производится в 16-битном формате, то попробуйте провести следующий небольшой тест.
Сгенерируйте синусоиду с произвольной частотой (например, 1 кГц) и маленькой амплитудой (например, -60 дБ). Затем обработайте эту синусоиду с помощью эффектов. После этого проанализируйте полученный звук на спектроанализаторе. Если где-то по ходу преобразований возникло округление, то на результирующем спектре будут видны пики гармонических искажений (как на рисунке 2). Если же вместо округления применялся более правильный способ снижения разрядности (dithering), то гармонических искажений не будет, а будет просто шум (например, как на рисунке 7).
Во многих звуковых редакторах можно выбирать способ работы с сигналом: округление или dithering.
Dithering
Что такое dithering и как он устроен?
Для предотвращения возникновения гармонических искажений требуется устранить корреляцию шума квантования с исходным аудиосигналом. Для этого существует метод, называемый dithering. Он заключается в добавлении к исходному сигналу перед округлением специально сгенерированного шума небольшой амплитуды. В зависимости от свойств этого шума, слышимые гармонические искажения могут быть либо совершенно устранены, либо значительно подавлены (рисунки 3, 4). Расплата за подавление искажений - немного повышенный (до +6 дБ по сравнению с округлением) уровень шума в фонограмме.
Важно не путать dithering-шум с шумом квантования. Если положить шум dithering'а равным нулю, то мы получим округление в чистом виде, но шум квантования при этом вовсе не будет равен нулю.
http://img96.imageshack.us/img96/7522/l03.gif
Рис.3. 24-битный сигнал и 16-битный сигнал,
полученный из 24-битного с помощью dithering’а
http://img196.imageshack.us/img196/2142/l04.gif
Рис.4. Спектры 16-битных сигналов, полученных с помощью округления и с помощью dithering’а
Разновидности dithering'a
Разные виды dithering-шума отличаются по амплитуде, по спектру и по функции распределения вероятности значений шума по амплитуде (PDF - probability distribution function). Для белого шума PDF показывает, как часто встречаются в шуме значения различных амплитуд. Стандартные виды PDF - треугольная, прямоугольная, гауссова. Например, треугольная PDF означает, что в шуме чаще будут встречаться значения с амплитудой вблизи нуля, чем с большими амплитудами. А при прямоугольной PDF все значения амплитуд шума (естественно, в определенных пределах) равновероятны.
Для обозначения максимальной амплитуды dithering-шума будем использовать единицу LSB (least significant bit - наименее значащий бит) - расстояние между двумя соседними (ближайшими возможными) значениями амплитуды в квантованном 16-битном сигнале. Если говорят, что шум имеет амплитуду 1 LSB от пика до пика (1 LSB peak-to-peak), то это значит, что он может принимать значения от -0,5 LSB до +0,5 LSB.
Чаще всего для dithering'а используется белый шум с амплитудой от 1 до 2 LSB. Существуют два стандартных вида dithering-шума. Первый - белый шум с прямоугольной PDF и амплитудой 1 LSB от пика до пика. Такой шум практически полностью устраняет гармонические искажения в квантованном сигнале, однако имеет недостаток: громкость шума квантования меняется со временем, и зависит от исходного сигнала. Это явление называется модуляцией шума.
Второй распространенный вид шума dithering'а - тоже белый шум, но с амплитудой 2 LSB от пика до пика и треугольной PDF. Такой шум наиболее часто используется при снижении разрядности и называется standard TPDF dither (TPDF - triangular PDF). Этот вид dithering'а вносит немного больше шума в фонограмму (-98 дБ (А)), однако практически полностью устраняет гармонические искажения и модуляцию шума.
В некоторых системах снижения разрядности можно выбирать амплитуду dithering-шума, изменяя баланс между количеством шума и количеством искажений. Маленькая амплитуда dithering-шума вносит меньше заметного шума, однако может не полностью устранить гармонические искажения и модуляцию шума. Большая амплитуда dithering-шума вносит больше слышимого шума, но практически полностью подавляет искажения и модуляции. Для большинства приложений оптимальным выбором среди алгоритмов dithering'а является standard TPDF dither.
Существуют и другие виды dithering'а. В некоторых из них шум имеет не белый, а более сложный спектр с целью понизить воспринимаемую громкость шума. Однако, используя только dithering, невозможно сильно изменить спектр шума квантования. Даже если вывести спектр dithering-шума полностью за пределы слышимого диапазона (выше 20 кГц), то шум квантования все равно будет присутствовать и ниже 20 кГц, причем в заметных количествах. Для эффективного формирования спектра шума квантования необходимо генерировать dithering-шум с учетом самого исходного сигнала. Алгоритмы для этого довольно сложны и применяются в таких системах, как Apogee UV22 и POW-R. Иногда таким системам свойственны некоторые побочные артефакты, связанные с коррелированностью dithering-шума и исходного сигнала, или цикличностью dithering-шума.
Насколько полезен dithering? Несмотря на то, что стандартный dithering повышает уровень шума фонограммы до -98 дБ (А), это не значит, что мы не сможем услышать в фонограмме звуки тише -98 дБ. В 16-битной фонограмме, если использовался стандартный dithering, можно отчетливо различить звуки с такими маленькими амплитудами, как -100…-110 дБ - особенно наглядно это демонстрируется на синусоидах со средними частотами. Дело в том, что наше ухо может "слышать сквозь шум", действуя как спектроанализатор. Как на спектрограммах видны пики синусоид, возвышающиеся над шумом квантования (например, на рисунке 4), так и наше ухо способно улавливать эти пики сквозь шум, несмотря на то, что суммарная амплитуда шума больше амплитуды полезного сигнала.
При этом в 16-битном сигнале практически отсутствуют гармонические искажения, связанные с квантованием (рисунок 4). Синусоида звучит абсолютно неискаженной, без обертонов. Единственный эффект квантования с ditheringом - постоянный шум, который, впрочем, обычно находится ниже порога слышимости.
Dithering применяется во многих системах для мастеринга и в звуковых редакторах при работе со звуком пониженной разрядности. Почти любые преобразования 16-битного звука (например, эквалайзер, реверберация, динамическая обработка, изменение частоты дискретизации) дают в результате звук большей разрядности. Но так как исходный звук был 16-битный, то звуковые редакторы приводят к 16-битному формату и результирующий звук.
Правильный способ такого приведения - это dithering, а "неправильный" - округление. Dithering применяется при каждой операции над 16-битным звуком, добавляя определенное количество шума. Если операций много, то уровень шума может стать заметным, хотя это все же лучше искажений округления. Поэтому при редактировании звука обычно применяются форматы с повышенной разрядностью (например, 24 или 32 бита) - в них нет необходимости применять dithering, поскольку при такой разрядности артефакты квантования слишком малы, чтобы обращать на них внимание. Отметим, что операцию снижения разрядности до 16 бит в этом случае выполняют в последнюю очередь, стремясь всю обработку (в том числе, изменение частоты дискретизации и лимитирование) провести в формате с повышенной разрядностью.
При мастеринге некоторые звукоинженеры предпочитают стандартный dithering другим, более сложным методам снижения разрядности из-за "проверенности" метода и "нейтральности" звучания белого шума.
Noise shaping
Как уже упоминалось, спектр dithering-шума можно варьировать, чтобы уменьшить воспринимаемую громкость шума. Наше ухо неодинаково чувствительно к звукам различных частот. Поэтому можно попытаться переместить dithering-шум в те частотные диапазоны, где наше ухо наименее чувствительно. Тогда воспринимаемая громкость шума понизится. С помощью методов dithering'а этого удавалось достичь лишь отчасти. Метод формирования шума (noise shaping) позволяет придать спектру шума квантования практически любую форму.
Noise shaping - следующий класс алгоритмов снижения разрядности, расширяющий возможности алгоритмов dithering'а. Основная идея заключается во введении обратной связи в процесс снижения разрядности. Ошибка квантования, полученная для текущего временного отсчета, участвует в процессе формирования шума для следующего временного отсчета. В этом процессе используется фильтр, который и определяет форму спектра шума квантования.
Отметим свойства шума квантования, получающегося в результате noise shaping:
- Шум квантованиЯ имеет спектр, соответствующий частотной характеристике фильтра, который применЯлсЯ при noise shaping.
- Суммарная амплитуда шума квантования значительно выше, чем у стандартного dithering'а за счет более высокой энергии шума в определенных частотных полосах, однако воспринимаемая громкость шума, при правильном выборе фильтра, значительно ниже. Обычно фильтры выбираются так, чтобы большая часть шума квантования смещалась в область высоких частот (выше 15 кГц), где чувствительность уха наименьшая (рисунки 5, 6).
- Коэффициенты фильтра должны быть нормированы так, чтобы соблюдалось следующее условие: чтобы вытеснить шум квантования из одной частотной области, нужно "столько же" шума квантования прибавить в другой частотной области. То есть на рисунке 6 площадь S1 должна быть равна площади S2.
- При соблюдении условия 3, noise shaping обеспечивает такую же степень подавления гармонических искажений и модуляций шума, как и соответствующий dithering.
http://img20.imageshack.us/img20/3905/l05.gif
Рис.5. Шум квантования.
Сверху – стандартный dithering, снизу – noise shaping
http://img51.imageshack.us/img51/4055/l06.gif
Рис.6. Спектр шума квантования.
Стандартный dithering и один из видов noise shaping
Системы noise shaping
Все системы стремятся вытеснить как можно больше шума из области средних частот, где наше ухо наиболее чувствительно. Вытеснять этот шум в область низких частот трудно: там мало "свободного места" (см. рисунок 6). Поэтому чаще всего шум вытесняется в область высоких частот. Ясно, что, чем больше мы убираем шума из средних частот, тем больше его становится в области высоких частот. Если принять за условную границу этих областей частоту 15 кГц, то основная часть шума сосредоточится на отрезке 15…22 кГц (более высоких частот в CD-аудио нет). Одно из основных ограничений, которые из-за этого возникают, таково: нельзя допустить слишком большой амплитуды шума в ВЧ-области. Если амплитуда ВЧ-шума будет слишком велика, то это может иметь нежелательные последствия:
- Некоторые люди относительно хорошо слышат ВЧ-шумы, и для них чрезмерный шум noise-shaping будет слышен при очень громком прослушивании как неприятный свист.
- Слишком сильный ВЧ-шум может повредить ВЧ-динамики громкоговорителей при очень большой громкости воспроизведения.
- Слишком сильный ВЧ-шум изменяет амплитудный профиль фонограммы, и это может привести к проблемам при необходимости последующей обработки фонограммы, например, в случае динамической обработки при ремастеринге.
- При ошибках чтения с аудио-CD плеер интерполирует неправильно считанные семплы. Высокая амплитуда ВЧ-шума затрудняет процесс интерполяции (снижает точность), и это увеличивает щелчки от интерполяции.
Чтобы минимизировать эти нежелательные последствия, предполагаемая амплитуда ВЧ-шума при noise shaping обычно не превышает -60 дБFS. В некоторых системах можно выбирать один из нескольких режимов работы, регулируя компромисс между маленькой амплитудой ВЧ-шума и более сильным подавлением среднечастотного (слышимого) шума.
Системы noise shaping дают большее преимущество при высоких частотах дискретизации. В этом случае ультразвуковая область до половины частоты дискретизации широка, и в ней "больше места" для вытеснения туда шума из слышимой области. Этот факт успешно используется в АЦП и ЦАП с передискретизацией (oversampling) для повышения динамического диапазона в слышимой области при маленькой реальной разрядности преобразователя.
Основное различие всех систем noise shaping - в фильтре. Именно он определяет форму спектра шума. Во многих системах фильтры имеют не очень гладкую частотную характеристику в слышимой полосе, и это может приводить к окрашенности шума. Из-за этого некоторые звукоинженеры предпочитают использовать стандартный dithering, а не системы noise shaping.
Noise shaping, так же как и dithering, при снижении разрядности практически полностью устраняет гармонические искажения и модуляцию шума. Кроме того, громкость шума квантования обычно становится заметно ниже, чем когда используется стандартный dithering. В результате мы получаем возможность слышать в фонограмме неискаженные звуки с уровнем -120…-110 дБ (особенно наглядно это демонстрируется на синусоидах со средними частотами).
Системы noise shaping - важная составная часть мастеринговых систем. Они расширяют слышимый динамический диапазон на компакт-диске.