Весь Queen в кармане!

Несколько лет назад один мой приятель, страстный меломан и знаток прогрессивного рока, попросил подсобить с переездом. Отчего же не помочь хорошему человеку? Но знал бы я, сколько придется перетаскать коробок с аудио-дисками! И еще хорошо, что это не был 'винил' - тогда пришлось бы вызывать кран.

В один из заслуженных 'перекуров' я посоветовал приятелю: 'Перегони свою коллекцию в MP3! А то так и надорваться можно'. В ответ мне пришлось выслушать лекцию о глубокой порочности всякого рода махинаций над честным звуковым сигналом. По его мнению, нельзя получать полноценное удовольствие от бледной копии оригинала, а формат mp3 именно то самое и есть.

Честно говоря, я никогда к меломанам и аудиофилам не относился. При виде сверкающих хромом проигрывателей, усилителей, больше похожих на пульт управления космическим кораблем, и 3-этажных колонок из красного дерева сердце мое билось (и бьется) совершенно спокойно. Точно так же ремастированный в ультрасовременном формате SACD (что значит super audio CD) хрестоматийный альбом Dark Side Of The Moon великих Pink Floyd новых тайн мне не открыл:

Но все же, слушая любимую музыку, я часто ловил (и ловлю) себя на мысли, что она звучит не совсем совершенно. Одна из причин этого прискорбного явления - ограничения, накладываемые на спектр сигнала всякого рода преобразователями. Судите сами: микрофон преобразует звук в электрические колебания, причем делает это не очень точно (ограниченные и своеобразные динамические характеристики, разная чувствительность на высоких и низких частотах и т.д.). Дальше дело обстоит еще хуже - многочисленные усилительные тракты вносят свои искажения, а уж что говорить, например, о магнитных лентах, способных сохранить сигнал только в узком динамическом диапазоне! В итоге звучание симфонического оркестра в хорошем (в том числе и по акустике) зале и по сей день остается недостижимым идеалом, к которому можно сколько угодно приближаться, но так и не получить даже за очень большие деньги.

Цифровая революция в звукозаписи, совершенная инженерами Philips и Sony в начале 80-х гг. прошлого века, позволила сохранять звуковой сигнал в форме, устойчивой к различного рода искажениям, присущим аналоговым устройствам (подробнее об этом смотри статью 'Музыка в цифре', опубликованную в ?12 за прошлый год). Компакт-диск стал заменой традиционному винилу, заменой более высокого технологического уровня.

По некоторым причинам длительность записи на аудио-диске не превышает 74 минут. Это несколько больше, чем дает традиционный винил, но все же не настолько много, как этого хотелось бы меломанам и коллекционерам. Поэтому в плане маркетинга и философии продаж практически ничего не изменилось: музыканты записывали альбомы, заводы штамповали диски, магазины их продавали. Но, положа руку на сердце, скажите, много ли дисков, которые можно слушать полностью? По большей части -- 2-3 'ударные' композиции, выполняющие роль 'паровоза', а остальной материал чаще всего пишется по остаточному принципу. И как-то обидно покупать целый диск, чтобы слушать в лучшем случае половину:

А теперь перенесемся в май 1988 года. Именно тогда о себе впервые заявила группа специалистов из разных научных учреждений и компаний, специализирующихся на выпуске аудиовидео-техники. Не мудрствуя лукаво, эксперты назвали свой форум 'Moving Picture Coding Experts Group' (что в переводе значит 'группа экспертов по кодированию подвижных изображений'), сокращенно MPEG. Со временем сообщество разрослось до полутысячи экспертов, представлявших более 200 компаний и научно-исследовательских учреждений. Особую роль сыграли специалисты Фраунхоферовского Института исследований (Fraunhofer Institut Integrierte Shaltungen -- IIS) и Thomson Multimedia, предложившие в ноябре 1992 года комплект стандартов кодирования, хранения и декодирования подвижных изображений и аудио информации, получивший название MPEG-1.

Этот комплект разработан в соответствии со стандартами ISO (International Standards Organization, "Международная организация по стандартизации" основана в 1946 г. для разработки международных стандартов в различных областях техники, производственной и других видах деятельности. Объединяет более 70 национальных организаций по стандартизации) и включает в себя три алгоритма различного уровня сложности, среди которых наибольший интерес для нас представляет Layer 3 (это и есть 'великий и ужасный' MP3). Чем же можно объяснить его исключительную популярность? Во-первых, тем, что звуковой сигнал обрабатывается с учетом психоакустической модели восприятия, на особенностях которой стоит остановиться подробнее.

Как вам хорошо известно, спектр звуков, воспринимаемых человеком, простирается от 18-20 Гц (нижняя граница) до 20-22 кГц (верхняя граница). В этом смысле нам, конечно, далеко до собак и летучих мышей, слышащих ультразвук частотой свыше 100 кГц, да и с возрастом диапазон восприятия сужается. Пик чувствительности приходится на отрезок от 2 до 4 кГц.

С точки зрения восприятия тихих и громких звуков человеческое ухо - инструмент совершенно фантастический. Динамический диапазон (от еле слышного шороха листвы до раскатов грома) составляет 96 дБ, то есть разница в звуковом давлении воспринимаемых звуков равна 1:30000 по линейной. И все же в силу некоторой инерционности слуха есть нюансы, помогающие упростить сигнал, сделать его компактней. Так, мы не можем различить 'плавание' высоты на 0,3-0,5% на средней частоте 1 кГц. Если сигналы по амплитуде различаются менее чем на 1 дБ, мы их тоже не различаем, причем для низких и высоких звуков это 'сглаживание' еще больше. Мы не замечаем пропадание высокочастотного сигнала длиной до 2 миллисекунд. И это еще не все. Очень большую роль в компрессии играет маскирование сигналов: за звуками громкими мы не слышим тихих, а раз не слышим, то формально ими можно пренебречь. А раз человеческое ухо все равно не различает этих нюансов, значит, их можно просто убрать, тем самым упростив и сократив запись.

Стандарт MP3 относится к типу 'lossy' (от английского lost - потерянный), то есть реальный звуковой сигнал 'рихтуется' и упрощается, становясь при этом уже совершенно другим, не идентичным оригиналу. Сам процесс кодирования осуществляется специальными программами-кодерами. Несмотря на их обилие, принципы действия кодеров одинаковы. Кодеры разбивают сигнал на блоки (так называемые фреймы) и считают их элементарными звуковыми ячейками, содержащими периодический сигнал. Каждый фрейм представляет своего рода пронумерованный 'кирпичик' звукового файла (на секунду звучания их приходится примерно 40), он структурно независим от других и может иметь отличающиеся параметры кодирования, информация о которых содержится в заголовке.

Сигнал в каждом фрейме делится фильтрами на несколько диапазонов. Количество полос фильтрации зависит от так называемого битрейта (* битрейт - количество бит, используемых для хранения одной секунды аудио. Пользователь указывает желаемый битрейт для сжатого выходного потока. Чем ниже битрейт, тем меньше бит позволяется кодеру отводить для хранения информации об одной секунде аудио и, таким образом, тем сильнее кодер упрощает сигнал, что соответственно влияет на качество звучания получаемого сжатого потока аудио) Так, стандартный сигнал компакт-диска (WAV-файл в формате PCM с частотой дискретизации 44,1 кГц, 16-битной разрядностью и 'честным' 2-канальным стереозвуком) обладает битрейтом около 1400 Кбит в секунду. Далее сигнал очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник, затем производится психоакустический анализ слышимого спектра частот: если 'соседи' звучат громче или мощность сигнала в данной полосе меньше порога слышимости, то в этом фрейме данный диапазон звукового сигнала кодироваться не будет.. После всех этих манипуляций из цифрового аудио сигнала исключается больше половины информации. В довершение всего проводится сжатие уже готового потока данных - отбрасываются данные с учетом того, чтобы потери от переквантования были ниже величины маскирующего эффекта.

Достичь еще большей компрессии позволяют специальные способы обработки стереосигнала. Первый - классический Dual Channel, в котором каждый канал получает ровно половину потока и представляет собой монофонический сигнал, как на аудио-дисках. А вот в режиме Stereo параллельные фреймы кодируются отдельно, но затем кодер сравнивает объем обработанных данных и в случае необходимости отдает одному из фреймов больше места. В итоге поток по каналам может серьезно различаться, что в случае с dual channel просто невозможно.

В режиме Joint Stereo (MS) кодируются также 2 канала, но только не левый и правый, а общий (Mid-channel) и разностный (Side-channel), причем последний кодируется с меньшим битрейтом. В обычной ситуации этот прием дает возможность несколько увеличить качество кодирования при совпадении фазы каналов. Но если присутствует фазовый сдвиг между каналами, то разностный сигнал резко уменьшается, и в итоге стереофонический эффект практически пропадает. Впрочем, фазовый сдвиг между левым и правым каналами характерен для магнитных аналоговых носителей типа аудиокассет, и сегодня, в эпоху цифровых технологий, практически не встречается.

Вариация режима Joint Stereo (MS/IS Stereo), применяемая при кодировании с низкими битрейтами, работает не с разностным сигналом, а вообще с отношением мощностей (Intensity) высокочастотного сигнала в разных каналах (низкие и средние частоты обрабатываются как обычно). Здесь полностью пропадает фазовая информация, поэтому данный режим применяется только для записей низкого качества, но очень большой степени сжатия.

Но и это еще не все. Как вполне резонно заметили умные немцы, работавшие тогда под руководством профессора Хайнца Герхойзера (в середине 80-х гг. возглавлявшего уже упомянутый Фраунгоферовский НИИ), музыка бывает разная. Не в смысле 'плохая-хорошая', а в плане сложности звукового спектра, динамического диапазона и т.д. Очевидно, что простая и непритязательная 'музыка для ног' типа Kraftwerk гораздо лучше сжимается, нежели 9-я симфония Бетховена, 'Аида' Верди или арт-роковые 'выкрутасы' группы Yes в сопровождении симфонического оркестра. Поэтому в алгоритме предусмотрен анализ текущего звукового потока: если он сравнительно прост, битрейт снижается до определенного порога, а если наоборот - тогда в дело вступают дополнительные разряды данных (читай - биты), и битрейт в разумных пределах повышается. Этот способ, известный как VBR (Variable BitRate), позволяет, хоть и ненамного, но повысить степень компрессии:

Что мы имеем в 'сухом остатке'? Массовое (если не сказать - тотальное) распространение mp3-файлов, в первую очередь во Всемирной паутине. Она-то и сыграла самую важную роль, хотя и не без моральных потерь. Когда формат только набирал обороты, а один из первых flash-плейеров имел память целых 32(!) мегабайта, битрейт '128' считался достаточным для обеспечения 'качества CD'. Это, конечно, далеко не так, но разница не настолько фатальна, как это иногда представляют. Падение качества искупается компактностью - вместо 700 мегабайт сплошного аудиопотока получаются в 10 раз меньшие файлы (до сих пор помнится магическая формула 'минута звучания занимает мегабайт'). Битрейт 256 кбит/с представляется достаточным для подавляющего большинства слушателей, не обремененных предрассудками. А уж на 320 кбит/c ни только очень придирчивый эксперт заметит разницу с оригиналом.

Успех MP3 (в том числе и коммерческий - разработчики MP3-кодеров обязаны платить фраунгоферовцам за использование алгоритма) подвиг специалистов придумать что-то другое. Среди альтернатив наиболее распространены (хотя и не так широко) полностью бесплатные кодеки Ogg Vorbis (группа разработчиков Xiphophorus) и Windows Media Audio (WMA), детище понятно кого. Их преимущества (помимо бесплатности) совсем не очевидны, и кардинального улучшения качества компрессии они не обеспечивают. А такая экзотика, как форматы MusePack (MPC), Advanced Audio Coding (AAC) или ATRAC фирмы Sony настолько редки, что известны только очень узким специалистам в области компрессии данных.

Можно спорить до хрипоты, на каких плейерах будут слушать музыку люди лет через пять. Будут ли это гипер-супер-флэш-плейеры с памятью на 500 гигабайт или этот класс устройств исчезнет, уступив место мобильным коммуникаторам (сиречь - телефонам), способным, кроме всего прочего, еще и проигрывать музыкальные файлы? Но абсолютно точно то, что и через пять и через десять лет МР3 не утратит своей популярности, очень уж хорошо поработали немецкие инженеры и ученые из тихого Эрлангена:

Кстати, мой знакомый, о котором я рассказывал в начале, недавно попросил 'перегнать' в mp3 некоторые альбомы Pink Floyd и Queen. Стопку из 10 фирменных английских аудио-дисков я обработал за вечер (на 256-м битрейте), и теперь у меня 2 компакт-диска с избранными альбомами любимых групп. Звучат они очень сочно, разницы с 'честными' audio-CD я не нахожу: Просто слушаю и получаю удовольствие. Просто слушаю:


2005-2008 Все права защищены. Журнал "Машины и механизмы"