Показано с 1 по 4 из 4

Тема: 12-битный мастеринг

Комбинированный просмотр

  1. #1
    Постоянный Аватар для AlexSun
    Регистрация
    01.11.2009
    Адрес
    Underground
    Сообщений
    285

    По умолчанию 12-битный мастеринг

    12-битный мастеринг


    В Интернете ведется много споров о том, какой хост "звучит" лучше, а какой хуже. Музыкальное сообщество убедило себя в том, что, например, Samplitude "звучит" лучше, чем Cubase. А программно-аппаратный комплекс Pro Tools HD с 48-битной шиной звуковых данных звучит лучше, чем Nuendo с 32-битным представлением звука. Но способно ли человеческое ухо в принципе услышать какую-либо разницу? Интереса ради я решил провести провокационный опрос на форуме: какой из двух WAV-файлов с одинаковыми фрагментами музыки звучит хуже и что в нем не так (какая применена обработка)? Один из вариантов фрагмента был в 16-битном разрешении, а второй - в 12-битном. Участники форума об этом не знали. Результаты опроса потрясающие: за две недели никто толком и не понял, что один из файлов 12-битный, а многие из опрошенных проголосовали за то, что 16-битный файл звучит хуже 12-битного. Почему так? Давайте разбираться.

    Подробности опроса

    Немного подробнее об условиях опроса. Мною были подготовлены два файла: 1.wav и 2.wav. Файл 2.wav был исходным, он не подвергался никакой обработке. Файл 1.wav изначально являлся копией файла 2.wav. Затем я понизил разрядность файла 1.wav до 12 бит без применения дитеринга с помощью плагина бит-крашера. При этом сам файл остался 16-разрядным, но младшие четыре разряда звуковых отсчетов "обнулились", т. е. не были задействованы для представления полезного сигнала. Специалисты знают о существовании битоскопов - программных или аппаратных индикаторов, которые отображают факт смены значений разных битов в звуковых отсчетах. Чтобы "обмануть" специалистов, я подмешал к файлу 1.wav очень тихий высокочастотный, практически ультразвуковой шум, у которого основная энергия сосредоточена в области 19 кГц. Сам по себе этот шум не слышен для человеческого уха, но он "загружает" младшие четыре разряда в 16-разрядном сигнале. Таким образом, отличить 12-битный звук от 16-битного можно было только на слух.
    В квалификации участников тестирования сомнений нет. Все они так или иначе связаны со звукозаписью. Многие из них ранее неоднократно "выступали" на форуме с дельными и толковыми советами при обсуждении самых различных проблем, связанных с обработкой звука. Если рядовые слушатели вообще не ощущают никакой разницы между двумя файлами, то большинство участников тестирования эту ускользающую разницу ощутили и описали ее в привычных для себя терминах.
    Интрига заключается в том, какому файлу участники тестирования отдали предпочтение. Из 18 высказавшихся участников четыре человека разницу не ощутили. Семь участников тестирования сообщили, что файл 1.wav (т. е. 12-битный) звучит приятнее: "объемно", "тепло", "округло", "ламповое звучание". Еще семь человек посчитали, что все-таки файл 2.wav (т. е. 16-битный) звучит лучше: более "прозрачно", "шире динамика". Предполагались различные варианты обработки вплоть до применения мастерингового процессора T.C. Electronic Finalizer 96K. Однако никто так и не понял, что файл 1.wav является 12-битным. Никто толком не догадался, какой именно файл был обработан.
    Ежедневно форум посещает около 300 человек. К моменту подведения итогов насчитывалось более 4 000 просмотров темы. Но, как видите, высказались только 18 участника. Можно считать, что остальным было не интересно или просто нечего было сказать. В первые дни опроса я, по своей наивности, полагал, что вот-вот кто-нибудь найдет правильный ответ. Однако этого не происходило. Люди стали конструировать ответы методом простого угадывания - перечислением всех известных обработок. Спустя две недели один из участников выдал ответ, приближенный к правильному. Ему и была засчитана победа.

    Война за громкость

    В последние годы обострилась проблема высоких громкостей фонограмм. Если коротко, то суть проблемы заключается в том, что из года в год громкость фонограмм постоянно повышается. Считается, что чем громче песня звучит, тем лучше это для ее популяризации. В результате происходит постоянная гонка громкостей, заказчики требуют от исполнителей (звукорежиссеров, инженеров мастеринга) "сделать громче, чем у конкурентов".
    Если сравнить звучание CD, изданных году в 1989 и изданных в году 2009, то разница по громкости будет колоссальной. Группы-долгожители музыкального олимпа переиздают свои старые альбомы с припиской remastered, т. е. мастеринг выполнен заново и, естественно, с существенным повышением громкости. Причем, старые альбомы переиздаются не только на CD, но и на относительно новых носителях - DVD, SACD, на подходе Blu-ray. Непосвященный слушатель может спросить: "Что плохого в том, что музыка переиздается на новых носителях более громкой? Ведь при необходимости громкость можно уменьшить". Беда заключается в том, что повышение громкости получается за счет существенного сужения динамического диапазона и, соответственно, искажения формы и спектра звукового сигнала. При высокой громкости искажения становятся чересчур заметными на слух, что не радует некоторых слушателей. Проблема усугубляется тем, что во многих случаях сами специалисты по мастерингу искренне верят в то, что сужение динамического диапазона вовсе не страшно, ведь благодаря хитрым приемам мастеринга фонограмма продолжает, как они говорят, "дышать".

    Самая малость теории (всего одна формула)

    Теоретически возможный динамический диапазон цифрового сигнала с линейным квантованием по уровню рассчитывается по формуле D = 20lg(2N), где N - количество разрядов квантования. Для 24-разрядного сигнала D = 144 дБ, для 16-разрядного сигнала D = 96 дБ, для 12-разрядного D = 72 дБ, для 8-разрядного D = 48 дБ. Для сравнения: динамический диапазон симфонического оркестра в среднем составляет 80 дБ, хора - 45 дБ, эстрадной музыки (рок, поп и т. п.) - 35 дБ. То есть 16-разрядного сигнала теоретически достаточно для того, чтобы "вместить" в себя динамический диапазон даже симфонического оркестра, не говоря уже о других источниках "музыкального сигнала". Однако при слишком маленьком уровне сигнала (когда оркестр играет очень тихо), становится существенной погрешность квантования. Для компенсации этого явления используется дитеринг (ditering) - искусственное зашумление сигнала в пределах 1-2 младших битов. А чтобы этот шум был как можно меньше заметен на слух, используется нойз-шейпинг (noise shaping) - специальный алгоритм, при котором энергия дитерингового шума оказывается смещенной в область высоких частот. В результате 16-битный CD с применением дитеринга и нойз-шейпинга позволяет записать звучание симфонического оркестра с сохранением достаточно высокого динамического диапазона.
    Динамический диапазон отрывка музыки в тестовом файле 2.wav составляет около 20 дБ. Данную запись можно без потери субъективного качества звука втиснуть в 12-разрядный сигнал. При этом останется еще достаточный запас по уровню сигнала для того, чтобы не слышать шум квантования. Если взять любой современный коммерческий трек музыкальных жанров поп, рок, хаус, транс и др., то он будет гораздо громче моего примера, а его динамический диапазон, соответственно, еще уже. Например, динамический диапазон на протяжении большей части трека Мадонны "Hung Up" (на рис. 1 показана его сигналограмма) составляет около 12 дБ, трек ATB "Ecstasy" - около 11 дБ. Это означает, что для данных треков и 12 бит многовато, можно вполне обойтись и 10 битами. Упомянутые треки лет десять назад считались бы бракованными, но не сегодня. Для сравнения, у трека группы Queen "A Kind Of Magic" (рис. 2) динамический диапазон около 35 дБ. В подавляющем большинстве современных треков я отчетливо слышу нелинейные искажения, вызванные чрезмерным сужением динамического диапазона. Однако это не беспокоит большинство людей, которые слушают музыку преимущественно в машине или краем уха по телевизору на кухне.


    Рис. 1. Сигналограмма трека Мадонны "Hung Up" (2005 г.)


    Рис. 2. Сигналограмма трека группы Queen "A Kind Of Magic" (1986 г.)

    Основным назначением мастеринга изначально являлась адаптация трека под конкретный носитель (виниловый диск, компакт-кассету, CD, FM-радио). Для CD можно было оставить динамический диапазон побольше, для винилового диска чуть меньше, для компакт-кассеты - еще меньше. Но в наше время назначение мастеринга изменилось. Теперь его основная задача - обеспечить как можно большую громкость за счет сокращения динамического диапазона. В результате произошло следующее: динамический диапазон современных треков сократился до того, что эти треки фактически оказались адаптированными для 12-, 10-, а в отдельных случаях и для 8-битных цифровых носителей. По этой причине никто не смог осознать тот факт, что тестовый файл является 12-битным. После сжатия динамического диапазона в ходе мастеринга этот файл оказался адаптированным для 12-битного носителя.

    Не верите? Попробуйте сами!

    Попробуйте поэкспериментировать самостоятельно, например с помощью звукового редактора Adobe Audition 3 в режиме Edit (редактирование одиночной волновой формы). Возьмите какой-нибудь фирменный CD. Командой главного меню File > Extract Audio from CD импортируйте нужный трек с диска. Выделите однородный по громкости участок фонограммы (не вступление и не затухание в конце трека) длительностью несколько минут. Командой Window > Amplitude Statistics откройте окно со статистической информацией по выделенному фрагменту. Перейдите на вкладку Histogram (рис. 3). Здесь отображается похожая на гору гистограмма распределения уровней сигнала. Горизонтальная ось соответствует различным уровням сигнала, а вертикальная - как часто эти уровни имеют место быть. По ширине основания гистограммы можно оценить динамический диапазон сигнала. В моем примере присутствуют сигналы с уровнями примерно от -5 до -18 дБ. Соответственно динамический диапазон - около 13 дБ.


    Рис. 3. Гистограмма распределения уровней сигнала

    Разыщите в своей фонотеке и импортируйте в программу современные треки с динамическими диапазонами 20 дБ и уже.
    Далее понадобится VST-плагин бит-крашер. Бит-крашер - это эффект, при котором искусственно понижается разрядность звука и выполняется ресэмплинг без предотвращения элайсинга (трансформации в слышимую частотную область компонентов сигнала, частоты которых изначально были выше половины частоты дискретизации). Можно использовать D16 Group Audio Software Decimort, описанный в первом номере журнала за 2009 год. Можно воспользоваться iZotope Ozone 4 (см. второй номер журнала за 2009 год), в нем тоже имеется функция понижения разрядности. Откройте окно VST-плагина (команда Effects > VST > название плагина). Какой бы вы плагин не использовали, на его панели нужно отключить все обработки, кроме возможности понижения разрядности. В моем примере (рис. 4) задействован единственный регулятор BITS. Кнопкой Play/Stop запустите предварительное прослушивание результатов обработки VST-плагином. Понижайте разрядность, начиная от 16 бит и до тех пор, пока искажения не станут ощутимыми на слух. В своем примере без ощутимых искажений я понизил разрядность до 10 бит.


    Рис. 4. Понижение разрядности с помощью Decimort

    Выводы

    Какие можно сделать выводы? При современной манере мастеринга, когда сильно сжимается динамический диапазон фонограммы, многие вещи просто теряют свой смысл.
    1. Нет смысла в применении каких-то утонченных эффектов, дорогостоящих аппаратных обработок и синтезаторов. Все те прелести, которые хорошо звучат в студии, будут "убиты" на этапе мастеринга.
    2. Нет смысла в применении нойз-шейпинга и дитеринга.
    3. Нет смысла в использовании 24-, 32-, 48-, 64-битных форматов представления звука на этапе записи многоканального проекта. Применение этих форматов позволяет минимизировать ошибки округления, накапливающиеся в ходе применения многократных обработок. Однако при прослушивании фонограммы с узким динамическим диапазоном слушатель будет "оглушен" ею - перестанет ощущать тонкости ее звучания, да и тонкостей этих не останется. Вполне достаточно использовать 16-битный формат для треков проекта и 24-битный для звукового файла, в который будет экспортирован проект перед мастерингом.
    4. Нет смысла обращаться в специализированную мастеринговую студию. В домашней или проджект-студии с помощью подручных программных средств с заводскими пресетами вы сможете угробить звучание своих треков ничуть не хуже, чем это сделано с треками современных поп-звезд. Совсем не обязательно для этого пользоваться дорогостоящими раритетными аналоговыми фильтрами и оптическими компрессорами.
    5. 16-битного разрешения для представления цифрового звука более чем достаточно (даже много!). Нет никакой необходимости в переиздании громких композиций на DVD-Audio и SACD.
    6. Гонка за громкостью должна чем-то закончиться, поскольку громкость нельзя повышать бесконечно. Ведь в предельном повышении громкости сигнал превратится в некую прямоугольную волну. Вероятно, что гонка эта закончится уже в этом 2009 году. Динамический диапазон в 10 дБ дальше ужимать уже просто некуда. Производителям музыки придется искать какие-то иные пути увеличения популярности своей продукции, например путем повышения ее художественной ценности.
    На фоне того факта, что даже при достаточно умеренной по современным меркам громкости люди не в состоянии отличить 12-битный звук от 16-битного, особенно бредовой выглядит идея использования аналоговых сумматоров (специальных аналоговых микшеров с ограниченным функционалом) для микширования цифровых треков в многоканальных проектах. Изначально эти устройства позволяли решить проблему одновременной записи нескольких аппаратных источников звука (обычно синтезаторов) при наличии у звуковой карты только одного стереофонического входа. Т. е. дешевле купить 8-канальный сумматор, чем 8-канальную звуковую карту или полноценный 8-канальный микшер. Однако позже проблема была перевернута с ног на голову, т. к. кто-то сказал, что "теплый" аналоговый микс звучит лучше "сухого" цифрового. Идея некоторым людям понравилась, и теперь они покупают многоканальные звуковые интерфейсы ценовой категории от 20 000 рублей ради того, чтобы пропустить треки через аналоговый сумматор ценовой категории около 10 000 руб. Этому, безусловно, рады и производители звуковых интерфейсов, и производители аналоговых сумматоров. Справедливости ради отмечу, что существуют гораздо более дорогие аналоговые сумматоры, в которых применены схемотехнические решения от некоторых еще более дорогих микшеров с уникальным звучанием, которые уже стали классическими. Однако, опять-таки, при современной манере мастеринга смысл в применении этих пультов пропадает. Утонченное звучание их аналоговых фильтров все равно будет уничтожено.
    Выводы достаточно жесткие и могут заставить некоторых людей нервничать. Ничего не поделаешь, господа. Посещайте чаще форум сайта http://petelin.ru, чтобы в будущем не пропускать подобные скандальные темы, опросы и тестирования. Если бы вы в первый же день тестирования зашли на сайт и написали: "В файле 1.wav понижена разрядность", то данной статьи попросту бы не было, т. к. не было бы повода для ее написания.
    Еще один важный вывод. Людям нравится звук с разрядностью менее 16 бит! Слушатели воспринимают его как "ламповый", "теплый" и т. д. Не зря же звукорежиссеры со стажем испытывают ностальгию по стареньким звуковым модулям и сэмплерам, в которых звуковой сигнал представлялся менее чем 16 битами с частотой сэмплирования менее чем 44,1 кГц. Я все чаще замечаю, что современные танцевальные композиции звучат так, словно к ним был применен бит-крашер. И всех это устраивает, никто не возражает.
    Что тут еще можно сказать? Противостоять "заскокам" мировой музыкальной индустрии могут только сами слушатели - они могут голосовать кошельками: не покупать диски с узеньким динамическим диапазоном или требовать возврата денег за уже купленные диски. Далее, по цепочке от покупателя, через магазины и промежуточных поставщиков, некое неудобство должно дойти до музыкального лейбла, выпустившего слишком громкий диск. Я заметил, что уже несколько лет не голосую своим кошельком - практически не покупаю CD. Но пока остальные слушатели своими кошельками не проголосовали, пользуйтесь моментом, применяйте 12-битный мастеринг! И пусть заказчик радуется "теплому", "ламповому" звуку :D

    Статья была опубликована в журнале "Звуковые виртуальные студии" № 3, 2009.
    Последний раз редактировалось AlexSun; 26.06.2010 в 23:50.
    [B][RIGHT][FONT="Microsoft Sans Serif"]Alex Sun[/FONT][/RIGHT][/B]

  2. #2
    Father of UGEX Аватар для Steph
    Регистрация
    10.06.2009
    Адрес
    Санкт-Петербург
    Сообщений
    4,099

    По умолчанию

    Спасибо, AlexSun. Статью ещё не читал, но судя по первым предложениям сравнивают битность. А смысл? Это всё равно что крутить ручку громкости и спрашивать, как звучит лучше? Ведь битность отвечает за динамический диапазон.

    1 bit - это информация о 6dB звука.

    Стандартный диск содержит информацию в 96dB (16bit), а 12bit - соответственно 72dB. Когда мы работает дома, врядли мы слышим что то ниже диапазона -40/-50dB.

    Вся суть работы, в частности сведение в высокой битности, это помогает сделать качественный результат, учитывая noisefloor (шумы которые вызваны аппаратурой и прочими помехами). И естественно после сведения, если урезать динамический диапазон с -96 до -72, мы лишь убираем все возможные шумы. Но слышно это будет лишь в том, случае, когда громкость воспроизведения будет достаточно сильной. В клубах или где бы там ни было. Учитывая что усилители и PA System имеет свои шумы (noisefloor), то всё вернётся как и было, если не станет хуже, т.к. шумы будут выделяться на слишком высокой громкости.

    Ну и в конце концов, записывают и сводят в 24-битах, а потом уже переводят в 16-битный, стандартный формат, тем самым делая тоже самое, что и с 16-и бит до 12-и, только намного качественней.
    Напомню что в 24 битах, храниться информация динамического диапазона в 144dB. И если не ошибаюсь, человеческое ухо расчитано на диапазон слуха ~110dB (помоему с такой силой долбит отбойный молот, который делает дыры в земле для столбов фундамента), выше начинаются боли и разрушение внутреннего уха. А на 140dB+ человек может откинуться в панике. Максимально разрешенный уровень - ~95dB.

    Но при сведении эти значения важны, т.к. это цифровой звук и информацию нужно просчитывать, а не слушать. Чем выше битность, тем меньше помех и качественней запись.

    ИМХО!

    Позже почитаю статью :)

  3. #3
    UGEX Crew Аватар для RockMeister
    Регистрация
    23.12.2011
    Адрес
    г. Ватутино, Украина
    Сообщений
    247

    По умолчанию

    Цитата Сообщение от Steph Посмотреть сообщение
    Напомню что в 24 битах, храниться информация динамического диапазона в 144dB. И если не ошибаюсь, человеческое ухо расчитано на диапазон слуха ~110dB (помоему с такой силой долбит отбойный молот, который делает дыры в земле для столбов фундамента), выше начинаются боли и разрушение внутреннего уха. А на 140dB+ человек может откинуться в панике. Максимально разрешенный уровень - ~95dB.
    Это разные децибелы :) Динамический диапазон цифрового девайса измеряется от -минус бесконечности до 0 Дб. 0-дб - это потолок, это когда все биты равны 1. Для 24-битного звука это будет - 111111111111111111111111 в двоичном выражении и составляет 0 дб. А минус бесконечность на самом деле будет 000000000000000000000000, и будет составлять -144 Дб.
    А звуковое давление меряется от 0 и выше. Вот те "140dB+ человек может откинуться в панике" - это они :)
    Аранжировка, звукозапись, сведение. Работа с любой точкой мира. https://soundcloud.com/rockmeister-1

  4. #4

    По умолчанию

    Позже почитаю статью
    27.06.2010, 10:40
    :thumbs:

Социальные закладки

Социальные закладки

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •