Виртуальная реальность. Пение при помощи компьютерной программы. Синтезаторы женского голоса.



Я уже ставил тему о виртуальной реальности.
Но вот сейчас наконец опять занялся музыкой - своим любимым делом.
Через компьютерные программы можно добиваться прекрасных результатов, прекрасных звучаний. И вот понадобилось мне звучание женского голоса. Вернее имитации женского голоса, которая может петь.

Раньше такие программы давали только возможность "петь" со звучанием скажем А....а.....а....а...а , ну или другими, но весьма примитивными. Но с тем чем я столкнулся сейчас меня просто поразило.
Имитируют уже не просто пение , а и речь, То есть можно уже в программе давать слова, стихи, и переводить это все в музыку, чтобы голоса стали петь песни.
Да, конечно голоса еще по своему тембру весьма примитивные. Там не будет вокала Карузо, Собинова, Лучано Паваротти , или Мария Каллас, Монсеррат Кабалье - нет конечно!
Но все же.

Просто поразительно, что компьютерные программы могут имитировать живой человеческий голос, нет не просто речь (это уже давно было) но и пение.

А с другой стороны вот этот век можно назвать Век виртуальной реальности.
И конечно возникает множество проблем.
Компьютеры еще не могут соперничать с человеком, но ... пока не могут.

И я начинаю эту тему с большой тревогой.
Да много прекрасного, нового, но.....

Тема очень обширная, сложная. Но давайте сперва познакомимся то о чем я говорил, то с чем столкнулся.
Для кого то это может уже и не в новинку, и уже давно все это слышали и знали.
И все же....

Комментарии (31)

Всего: 31 комментарий
  
#1 | Анатолий »» | 02.08.2016 21:20
  
0
Давайте послушаем сперва о чем идет речь.
Только попытайтесь понять (вы не сразу это поймете) что все голосы - синтезированные в компьютере, как и слова песни, как и мелодии песни.

Это написано в программе Yamaha Vocaloid 4





И вот еще. Это уже явно видно. Но послушайте:






Это написано в программе Yamaha Vocaloid 3




Записывается это вот так в программе



Синтезировать можно и мужской голос.



поет довольно однообразно, но голос кажется живым!

  
#2 | Анатолий »» | 02.08.2016 21:33
  
0
Если уж мы заговорили о компьютерных программах для сочинения музыки, то я считаю что за ними будущее.

Вот посмотрите эту громоздкую студию с синтезаторами.



Вот это все можно уместить в компьютере домашнего пользования и использовать множество программ которые синтезируют звуки.

Для этого достаточно программ виртуальных синтезаторов. и одну программу, котоаря умещает множество виртуальных синтезаторов в одной платформе.

да нужна еще МИДИ клавиатура.
И ВСЕ!

И не надо этих громоздких студий.


И вот этих чудовищных монстров.


  
#3 | Анатолий »» | 02.08.2016 21:51
  
0
А все начиналось вот так!

Это один из первых синтезаторов голоса.



Рассмотрен первый электрический синтезатор речи, электронный аппарат (Voice Operation DEmonstratoR) был разработан Homer Dudley в Bell Labs и продемонстрировал как на 1939 Нью-йоркской Всемирной выставке и 1939 Золотые ворота Международной выставке. Трудно использовать и трудно работать, тем не менее, электронный аппарат проложил путь для будущей машины сгенерированных речи.





А синтезированный электронный звуковой инструмент был изобретен в 1920 году!!


Терменво́кс (theremin или thereminvox) — электромузыкальный инструмент, созданный в 1920 году советским изобретателем Львом Сергеевичем Терменом в Петрограде.

На нем играли передвижением руки
И звучал он вот так




В 1919 году руководитель Физико-технического института в Петрограде Абрам Иоффе пригласил к себе на работу Льва Термена как специалиста по радиотехнике. Новому сотруднику была поставлена задача измерения диэлектрической постоянной газов при различных давлениях и температурах[1]. Поначалу измерительная установка Термена представляла собой генератор электрических колебаний на катодной лампе. Испытуемый газ в полости между металлическими пластинами был элементом колебательного контура — конденсатором, который влиял на частоту электрических колебаний. В процессе работы над повышением чувствительности установки возникла идея объединения двух генераторов, один из которых давал колебания определённой неизменной частоты. Сигналы от обоих генераторов подавались на катодное реле, на выходе которого формировался сигнал с разностной частотой. Относительное изменение разностной частоты от параметров испытуемого газа было намного больше. При этом, если разностная частота попадала в звуковой диапазон, то сигнал можно было принимать на слух.

Прибор оказался очень чувствительным. Он реагировал на малейшие изменения ёмкости колебательного контура, которая менялась от приближения руки. Соответственно менялась и частота звука. Подобрать мелодию не составляло для Термена большого труда, так как он с детства увлекался музыкой. В ноябре 1920 года на заседании кружка механиков имени профессора Кирпичёва физик Термен дал свой первый концерт[1]. Изобретённый им электронный музыкальный инструмент первоначально был назван этеротон (звук из воздуха, эфира). Вскоре он был переименован в честь автора и стал называться терменвокс.

При создании инструмента (помимо электрической генерации звука) Термен обращал особое внимание на «возможность весьма тонкого управления без какой-либо затраты механической энергии, требуемой для нажатия струн или клавиш. Исполнение музыки на электрическом инструменте должно производиться, например, свободными движениями пальцев в воздухе, аналогично дирижерским жестам, на расстоянии от инструмента».

В марте 1922 года Л. С. Термен и член коллегии Наркомпочтеля председатель Радиосовета А. М. Николаев приехали в Кремль к В. И. Ленину для показа инструмента. Л. С. Термен после собственноручного исполнения «Этюда» Скрябина, «Лебедя» Сен-Санса и «Жаворонка» Глинки стал помогать В. И. Ленину играть на терменвоксе. Однако вскоре оказалось, что Ленин может играть самостоятельно. Он завершил исполнение «Жаворонка» Глинки без помощи изобретателя. Кроме того, была продемонстрирована сигнализация на ёмкостном реле, принцип действия которого был схож с принципом действия терменвокса

Высоко оценив перспективы изобретения, Ленин написал записку наркомвоенмору Льву Троцкому:

Обсудить, нельзя ли уменьшить караулы кремлёвских курсантов посредством введения в Кремле электрической сигнализации? (Один инженер, Термен, показывал нам в Кремле свои опыты…)



В результате, несмотря на все трудности того времени, был подписан декрет о создании физико-технического отдела при Государственном рентгенологическом и радиологическом институте, где изобретатель продолжил свои исследования.


+++

Классический терменвокс
В первых, классических, моделях, созданных самим Львом Терменом, управление звуком происходит в результате свободного перемещения рук исполнителя в электромагнитном поле вблизи двух металлических антенн. Исполнитель играет стоя. Изменение высоты звука достигается путём приближения руки к правой антенне, в то время как громкость звука управляется за счёт приближения другой руки к левой антенне. Именно эта модель терменвокса получила самое широкое распространение в мире. Существует целый ряд фирм, производящих инструменты этого типа.
  
#4 | Анатолий »» | 04.08.2016 21:23
  
0
Конечно в исполнении электронном очень мало души. Вернее ее совсем нет. И между прочим в электронных инструментах тот же порок. впрочем саунды бывают весьма интересными. они фантастические, и привлекательные, но замечено, что особенно в дигитальных звуках ( не аналоговых) присутствует мертвость. Их можно слушать и наслаждаться , даже самыми прекрасными непродолжительное время, а потом они надоедают, даже вызывают отторжение.
Молодое поколение не улавливает эту мертвость звука, им все равно.
Любой дигитальный звук - придает мертвость.
Вот мы слушаем DVD диски , даже концертов классической музыки и не улавливаем разницу. Дело не в звучании в помещении, в концертном зале, в потому что записть хоть и производилась качественная, однако все это переведено в дигитальный вариант. Там идут "срезки" - пилообразность.

Единица и нуль - и все. Нет ничего между ними.
Конечно чем качественней запись, тем вот этих срезки частот будет меньше заметны.

Это как в видео изображении. Чем мельче зерна монитора, тем качественней изображение. Но какие бы они не были раскрашенными в фотошопе, они все равно не сравняться с глазом человека.

Вот и здесь в этом пении есть эта дигитальность. И к тому же нет души в пении.
оттенки уже добавляют в пении элекронном и голос звучит не как у робота. и все же недостаточно.

Но что будет дальше? Потом?
  
#5 | Анатолий »» | 05.08.2016 18:10
  
0
О цифровой технологии не мало написано. Давайте разберемся.
Для этого предлагаю ряд статей объясняющий принцип дигитальной записи и отличие ее от аналоговой записи звука.
Такой , небольшой ликбез.
  
#6 | Анатолий »» | 05.08.2016 18:14
  
0
Параметры цифрового звука.

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации. Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering, можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

Для передачи звука как он есть было бы неплохо сохранить весь воспринимаемый диапазон от 10 Гц до 20 кГц. С низкими частотами в теории в цифровой записи проблем совершенно никаких нет (но есть проблемы при передаче этих частот по электрическим цепям и воспроизведении их через малогабаритные стереоколонки или наушники). Так на выходе звуковых плат обычно стоит усилитель мощности, который и подаёт сигнал на стереоколонки. Этот усилитель в дешевых платах совместно с цепью обратной связи, а также паразитными емкостями составляет фильтр нижних частот, который "заваливает басы".

С высокими частотами все немного хуже, по крайней мере точно сложнее. Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум. Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел . Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering, заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось, но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.
Q: Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда. Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]

Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]

Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.

Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет. Качество преобразования нисколько не зависит от битности. В AC'97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука.
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от 'лишних' 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.

Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума.
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен, так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Автор: Дмитрий Михайлов

Источник: http://www.tiflocomp.ru
  
#7 | Анатолий »» | 05.08.2016 18:16
  
0
В настоящее время цифровые технологии почти полностью вытеснили аналоговые системы записи звука и изображения. Кроме существенных преимуществ цифровых технологий, есть и серьёзные недостатки.
Хотелось бы обсудить вопрос: есть ли будущее у аналоговых систем или их эра закончилась навсегда?
Преимущества и недостатки цифрового звука.
С точки зрения обычного пользователя выгоды много - компактность современных носителей информации позволяет ему, например, перевести все диски и пластинки из своей коллекции в цифровое представление и сохранить на долгие годы на небольшом трехдюймовом винчестере или на десятке-другом компакт дисков; можно воспользоваться специальным программным обеспечением и хорошенько «почистить» старые записи с бобин и пластинок, удалив из их звучания шумы и треск; можно также не просто скорректировать звучание, но и приукрасить его, добавить сочности, объемности, восстановить частоты. Помимо перечисленных манипуляций со звуком в домашних условиях, Интернет тоже приходит на помощь аудио-любителю. Например, сеть позволяет людям обмениваться музыкой, прослушивать сотни тысяч различных Интернет-радио станций, а также демонстрировать свое звуковое творчество публике, и для этого нужен всего лишь компьютер и Интернет. И, наконец, в последнее время появилась огромная масса различной портативной цифровой аудио аппаратуры, возможности даже самого среднего представителя которой зачастую позволяют с легкостью взять с собой в дорогу коллекцию музыки, равную по длительности звучания десяткам часов.
Конечно, вышесказанное несколько утрировано и компьютер не заменяет человека – звукооператора, режиссера или монтажера, однако с уверенностью можно сказать, что компактность, мобильность, колоссальная мощность и обеспечиваемое качество современной цифровой техники, предназначенной для обработки звука, уже сегодня почти полностью вытеснило из студий старую аналоговую аппаратуру.
Конечно, цифровая техника тоже имеет свои недостатки. Многие (профессионалы и любители) отмечают, что аналоговый звук слушался живее. И это не просто дань прошлому. Как мы сказали выше, процесс оцифровки вносит определенную погрешность в звучание, кроме того, различная усиливающая цифровая аппаратура привносит так называемые «транзисторные шумы» и другие специфические искажения. Термину «транзисторный шум», пожалуй, нет точного определения, но можно сказать, что это хаотичные колебания в области высоких частот. Не смотря на то, что слуховой аппарат человека способен воспринимать частоты до 20 кГц, похоже, все-таки, человеческий мозг улавливает и более высокие частоты. И именно на подсознательном уровне человек все же ощущает аналоговое звучание чище, чем цифровое.


Преимущества и недостатки цифровых фотокамер
Достоинства.
Цифровые фотокамеры позволяют сразу просмотреть отснятый кадр и одним нажатием кнопки удалить ненужный снимок. Загрузив фотографию в компьютер, вы можете передать ее по электронной почте родственникам и друзьям. Программное обеспечение позволит вам исправить дефекты, прежде чем печатать снимок. Вы можете исправить эффект "красных глаз", удалить шум, скомбинировать несколько снимков, добавить рамки и т. д.

Недостатки.
Цифровые фотокамеры дороже пленочных, а снимки не всегда получаются такими же резкими и яркими. У вас не закончится пленка, как в обычном фотоаппарате, зато может сесть аккумулятор или закончится свободное место на карте памяти. Очень обидно, когда это происходит на пикнике или во время путешествия с ребенком. Единственное средство - это иметь запасные аккумуляторы и периодически перегружать снимки в портативный компьютер.

Цифровые видеокамеры
Достоинства
Цифровые видеокамеры, как и цифровые фотоаппараты, позволяют сразу же просмотреть записанные кадры. Вы имеете возможность записать как видеофильм, так и статическое изображение, как на фотографии.
Необходимо выбирать легкую и удобную модель, которой можно управлять одной рукой. Камера должна давать четкое изображение и не быть перегружена ненужными функциями, лишь увеличивающими ее цену. Большая разрешающая способность и возможности редактирования увеличивают стоимость видеокамеры и повышают требования к объему памяти компьютера.
Недостатки
У большинства моделей время работы от аккумуляторов ограничено, и поэтому следует купить дополнительный аккумулятор, чтобы камера не отключалась в самый важный момент. Современные видеокамеры пишут изображение непосредственно на диск , если этот диск случайно уронить, он треснет или разобьётся, со сломанной кассеты, можно перемотать плёнку на рабочую кассету. Срок хранения изображение на кассете выше, чем на диске.


Цифровое телевидение
Применение цифрового телевидения обеспечивает ряд преимуществ по сравнению с аналоговым телевидением:
Повышение помехоустойчивости трактов передачи и записи телевизионных сигналов
Уменьшение мощности передатчиков
Существенное увеличение числа ТВ программ, передаваемых в том же частотном диапазоне
Повышение качества изображения и звука ТВ приёмниках
Создание ТВ систем с новыми стандартами разложения изображения (телевидение высокой чёткости)
Расширение функциональных возможностей студийной аппаратуры
Передача в ТВ сигнале различной дополнительной информации
Создание интерактивных ТВ систем, при пользовании которыми зритель получает возможность воздействовать на передаваемую программу (например, видео по запросу)
Функция "В начало передачи"
Архив ТВ-передач и Запись ТВ-передач
Выбор языка и субтитров

Недостатки цифрового телевидения
Резко ограниченная территория покрытия сигнала, вне которой приём невозможен
Замирания и рассыпания картинки на "квадратики"
Цифровое телевидение в России
Российская сеть цифрового вещания будет состоять из 20-24 бесплатных каналов, но в феврале 2010 года заработали только 8 из них. Это произошло в одном из сёл Хабаровского края. Время запуска остальных «скорректировано нынешней экономической ситуацией». Строительство сети потребует инвестиций в 127 млрд руб.
Неужели эра аналоговых систем записи изображения и звука, закончилась навсегда? Хотя очень жаль.
С уважением Kompas.

Источник: http://www.chipmaker.ru/topic/68470/
  
#8 | Анатолий »» | 05.08.2016 18:27
  
0
Звук и цифровые технологии.

Цифровые технологии изо дня в день все больше наполняют окружающий нас мир, и этот процесс со временем только ускоряется. В повседневном обиходе любого из нас уже сегодня присутствует большое число самых различных цифровых устройств, каждое из которых имеет характеристики и свойства, значение которых оказывается не всегда известным и понятным для потребителя. Некоторые из ставших уже абсолютно привычными электронные устройства, равно как и компьютерные программы, остаются для потребителя некими черными ящиками, устройство и принцип действия которых скрыто от глаз.

Потребительская аудио аппаратура, также как и остальная аппаратура - постепенно и уверенно переходящая на цифровые рельсы, становится все сложнее, ее параметры – все запутаннее, а принцип действия – все менее ясным. Эта статья не является универсальным путеводителем в области цифрового звука и цифровой аудио техники, однако в ней мы попытаемся разобраться с основными идеями, а также теоретическими и практическими принципами, лежащими в основе современных цифровых аудио технологий и устройств. Автор статьи надеется, что приведенные в ней сведения окажутся полезными для читателя и явят собой некую основополагающую теоретическую базу, понимание которой просто необходимо всем активным аудио любителям.
Физика и психофизика звука

Разговор о звуке мы начнем с рассмотрения простейших физических понятий.



Физика звуковой волны



Понятие «звук» самым тесным образом связано с понятием «волна». Интересно, что это понятие, являясь привычным для абсолютно всех, у многих вызывает затруднения при попытке дать ему внятное определение. С одной стороны, волна – это что-то, что связано с движением, нечто, распространяющееся в пространстве, как, например, волны, расходящиеся кругами от брошенного в воду камня. С другой стороны, мы знаем, что лежащая на поверхности воды ветка почти не станет двигаться в направлении распространения волн от брошенного рядом камня, а будет в основном лишь колыхаться на воде. Что же переносится в пространстве при распространении волны? Оказывается, в пространстве переносится некоторое возмущение. Брошенный в воду камень вызывает всплеск – изменение состояния поверхности воды, и это возмущение передается от одной точки водоема к другой в виде колебаний поверхности. Таким образом, волна – это процесс перемещения в пространстве изменения состояния.

Звуковая волна (звуковые колебания) – это передающиеся в пространстве механические колебания молекул вещества (например, воздуха). Давайте представим себе, каким образом происходит распространение звуковых волн в пространстве. В результате каких-то возмущений (например, в результате колебаний диффузора громкоговорителя или гитарной струны), вызывающих движение и колебания воздуха в определенной точке пространства, возникает перепад давления в этом месте, так как воздух в процессе движения сжимается, в результате чего возникает избыточное давление, толкающее окружающие слои воздуха. Эти слои сжимаются, что в свою очередь снова создает избыточное давление, влияющее на соседние слои воздуха. Так, как бы по цепочке, происходит передача первоначального возмущения в пространстве из одной точки в другую. Этот процесс описывает механизм распространения в пространстве звуковой волны. Тело, создающее возмущение (колебания) воздуха, называют источником звука.

Привычное для всех нас понятие «звук» означает всего лишь воспринимаемый слуховым аппаратом человека набор звуковых колебаний. О том, какие колебания человек воспринимает, а какие нет, мы поговорим позднее.

Звуковые колебания, а также вообще все колебания, как известно из физики, характеризуются амплитудой (интенсивностью), частотой и фазой. В отношении звуковых колебаний очень важно упомянуть такую характеристику, как скорость распространения. Скорость распространения колебаний, вообще говоря, зависит от среды, в которой колебания распространяются. На эту скорость влияют такие факторы, как упругость среды, ее плотность и температура. Так, например, чем выше температура среды, тем выше в ней скорость звука. В нормальных (при нормальной температуре и давлении) условиях скорость звука в воздухе составляет приблизительно 330 м/с. Таким образом, время, через которое слушатель начинает воспринимать звуковые колебания, зависит от удаленности слушателя от источника звука, а также от характеристик среды, в которой происходит распространение звуковой волны. Немаловажно заметить, что скорость распространения звука почти не зависит от частоты звуковых колебаний. Это означает, среди прочего, что звук воспринимается именно в той последовательности, в какой он создается источником. Если бы это было не так, и звук одной частоты распространялся бы быстрее звука другой частоты, то вместо, например, музыки, мы бы слышали резкий и отрывистый шум.

Звуковым волнам присущи различные явления, связанные с распространением волн в пространстве. Перечислим наиболее важные из них.

Интерференция - усиление колебаний звука в одних точках пространства и ослабление колебаний в других точках в результате наложения двух или нескольких звуковых волн. Когда мы слышим звуки разных, но достаточно близких частот сразу от двух источников, к нам приходят то гребни обеих звуковых волн, то гребень одной волны и впадина другой. В результате наложения двух волн, звук то усиливается, то ослабевает, что воспринимается на слух как биения. Этот эффект называется интерференцией во времени. Конечно, в реальности механизм интерференции оказывается намного более сложным, однако его суть не меняется. Эффект возникновения биений используется при настройке двух музыкальных тонов в унисон (например, при настройке гитары): настройку производят до тех пор, пока биения перестают ощущаться.

Звуковая волна, при ее падении на границу раздела с другой средой, может отразиться от границы раздела, пройти в другую среду, изменить направление движения - преломиться от границы раздела (это явление называют рефракцией), поглотиться или одновременно совершить несколько из перечисленных действий. Степень поглощения и отражения зависит от свойств сред на границе раздела.

Энергия звуковой волны в процессе ее распространения поглощается средой. Этот эффект называют поглощением звуковых волн. Существование эффекта поглощения обусловлено процессами теплообмена и межмолекулярного взаимодействия в среде. Важно отметить, что степень поглощения звуковой энергии зависит как от свойств среды (температура, давление, плотность), так и от частоты звуковых колебаний: чем выше частота звуковых колебаний, тем большее рассеяние претерпевает на своем пути звуковая волна.

Очень важно упомянуть также явление волнового движения в замкнутом объеме, суть которого состоит в отражении звуковых волн от стенок некоторого закрытого пространства. Отражения звуковых колебаний могут сильно влиять на конечное восприятие звука - изменять его окраску, насыщенность, глубину. Так, звук идущий от источника, расположенного в закрытом помещении, многократно ударяясь и отражаясь от стен помещения, воспринимается слушателем как звук, сопровождающийся специфическим гулом. Такой гул называется реверберацией (от лат. « reverbero » - «отбрасываю»). Эффект реверберации очень широко используется в звукообработке с целью придания звучанию специфических свойств и тембральной окраски.

Способность огибать препятствия – еще одно ключевое свойство звуковых волн, называемое в науке дифракцией. Степень огибания зависит от соотношения между длиной звуковой волны (ее частотой) и размером стоящего на ее пути препятствия или отверстия. Если размер препятствия оказывается намного больше длины волны, то звуковая волна отражается от него. Если же размеры препятствия оказываются сопоставимыми с длиной волны или оказываются меньше ее, то звуковая волна дифрагирует.

Еще один эффект, связанный с волновым движением, о котором нельзя не вспомнить - эффект резонанса. Он заключается в следующем. Звуковая волна, создаваемая некоторым колеблющимся телом, распространяясь в пространстве, может переносить энергию колебаний другому телу (резонатору), которое, поглощая эту энергию, начинает колебаться, и, фактически, само становится источником звука. Так исходная звуковая волна усиливается, и звук становится громче. Надо заметить, что в случае появления резонанса, энергия звуковой волны расходуется на «раскачивание» резонатора, что соответственно сказывается на длительности звучания.

Эффект Допплера – еще один интересный, последний в нашем списке эффект, связанный с распространением звуковых волн в пространстве. Эффект заключается в том, что длина волны изменяется соответственно изменению скорости движения слушателя относительно источника волны. Чем быстрее слушатель (регистрирующий датчик) приближается к источнику волны, тем регистрируемая им длина волны становится меньше и наоборот.

Эти и другие явления учитываются и широко используются во многих областях, таких как акустика, звукообработка и радиолокация.



Звук и формы его представления



Как мы уже выяснили, звук – это слышимые человеком колебания, распространяющиеся в пространстве. Что же представляет собой звук в аудио аппаратуре?

В звуковой аппаратуре звук представляется либо непрерывным электрическим сигналом, либо набором цифр (нулей и единиц). Аппаратура, в которой рабочий сигнал является непрерывным электрическим сигналом, называется аналоговой аппаратурой (например, бытовой радио приемник или стерео усилитель), а сам рабочий сигнал – аналоговым сигналом.

Преобразование звуковых колебаний в аналоговый сигнал можно осуществить, например, следующим способом. Мембрана из тонкого металла с намотанной на нее катушкой индуктивности, подключенная в электрическую цепь и находящаяся в поле действия постоянного магнита, подчиняясь колебаниям воздуха и колеблясь вместе с ним, вызывает соответствующие колебания напряжения в цепи. Эти колебания как бы моделируют оригинальную звуковую волну. Приблизительно так работает привычный для нас микрофон. Полученный в результате такого преобразования аналоговый аудио сигнал может быть записан на магнитную ленту и впоследствии воспроизведен.

Аналоговый сигнал с помощью специального процесса (о нем мы будем говорить позднее) может быть представлен в виде цифрового сигнала – некоторой последовательности чисел. Таким образом, аналоговый звуковой сигнал может быть «введен» в компьютер, обработан цифровыми методами и сохранен на цифровом носителе в виде некоторого набора описывающих его дискретных значений.

Важно понять, что аналоговый или цифровой аудио сигнал – это лишь формы представления звуковых колебаний материи, придуманная человеком для того, чтобы иметь возможность анализировать и обрабатывать звук. Непосредственно аналоговый или цифровой сигнал в его исходном виде не может быть «услышан». Чтобы воссоздать закодированное в цифровых данных звучание, необходимо вызвать соответствующие колебания воздуха, потому что именно эти колебания и есть звук. Это можно сделать лишь путем организации вынужденных колебаний некоторого предмета, расположенного в воздушном пространстве (например, диффузора громкоговорителя). Колебания предмета вызывают колебаниями напряжения в электрической цепи. Эти самые колебания напряжения и есть аналоговый сигнал. Таким образом, чтобы «прослушать» цифровой сигнал, необходимо вернуться от него к аналоговому сигналу. А чтобы «услышать» аналоговый сигнал нужно с его помощью организовать колебания диффузора громкоговорителя.

Спектр звука

Спектр звукового сигнала (звуковой волны) является одним из важнейших инструментов анализа и обработки звука. Спектральное разложение сигналов – тема обширная и сложная. Мы постараемся раскрыть эту тему, не слишком вдаваясь в ее теоретические подробности.

Французский математик Фурье (1768-1830) и его последователи доказали, что любую, обязательно периодическую функцию, в случае ее соответствия некоторым математическим условиям можно разложить в ряд (сумму) косинусов и синусов с некоторыми коэффициентами, называемый тригонометрическим рядом Фурье.

Часть пропущена.


До сих пор мы говорили о математике. Как же все сказанное соотносится с практикой? Действительно, рассмотренный нами способ разложения в ряд Фурье работает для функций, записанных в виде аналитических выражений. К сожалению, на практике записать функцию в виде аналитического выражения возможно лишь в единичных случаях. В реальности чаще всего приходится работать с изменяющимися во времени величинами, никак неподдающимися аналитической записи. Кроме того, значения анализируемой величины чаще всего известны не в любой момент времени, а лишь тогда, когда производится их регистрация (иными словами, значения анализируемой величины дискретны). В частности, интересующие нас сейчас реальные звуковые колебания, являются как раз такой величиной. Оказывается, к таким величинам тоже может быть применена вариация анализа Фурье. Для разложения в ряд Фурье сигналов, описанных их дискретными значениями, применяют Дискретное Преобразование Фурье (ДПФ ) – специально созданная разновидность анализа Фурье. Алгоритм ДПФ был адаптирован для применения в цифровой вычислительной технике и ускорен, в результате чего появился еще один алгоритм, названный Быстрое Преобразование Фурье - БПФ ( Fast Fourier Transform - FFT). БПФ очень широко используется буквально во всех областях науки и техники.

Используя ДПФ/БПФ, звуковой сигнал, описанный его численными значениями, подобно математической функции, может представить в виде спектра входящих в него частот (частотный спектр). Частотные составляющие спектра - это синусоидальные колебания (так называемые чистые тона), каждое из которых имеет свою собственную амплитуду, частоту и фазу. В формуле (*) коэффициенты a k и b k при и показывают амплитуду соответствующей частотной составляющей, а – ее частоту. Любое, даже самое сложное по форме колебание (например, звук голоса человека), можно представить в виде суммы простейших синусоидальных колебаний определенных частот и амплитуд. На рис. 3 представлен график реальной звуковой волны.


На графике по оси абсцисс откладывается время, а по оси ординат - амплитуда волны (измеренная в децибелах). Спектр этого звукового сигнала представлен в виде графика на рис. 4.


На графике спектра по оси абсцисс откладывается частота спектральных составляющих (измеренная в Гц), а по оси ординат – амплитуда этих спектральных составляющих.

Обратим внимание на один очень важный момент: даже самую сложную зависимость (функцию) спектральное разложение превращает в некоторый математический ряд строго определенного вида (ряд может быть конечным и бесконечным). Таким образом, спектральное разложение как бы преобразует график в график: график функции превращается в график спектра функции. А что, если наша функция – это звуковой сигнал некоторой длительности? Выходит, что в результате спектрального преобразования он тоже превратится в статичную картинку спектра; таким образом, информация о временных изменениях будет утеряна – перед нами будет единый статичный спектр всего сигнала. Как же проследить динамику изменения спектра сигнала во времени?

Чтобы получить представление об изменении спектра во времени, аудио сигнал необходимо анализировать не целиком, а по частям (говорят «блоками» или «окнами»). Например, трехсекундный аудио сигнал можно разбить на 30 блоков. Вычислив спектр для каждого из них, мы сможем проследить динамику развития спектрального состава звучания с разрешением 1/10 секунды. Нужно учитывать, однако, что чем меньше анализируемый блок сигнала, тем менее точен (менее информативен) спектр этого блока. Таким образом, при проведении спектрального анализа мы сталкиваемся с дилеммой, решение которой строго индивидуально для каждого конкретного случая. Стремясь получить высокое временное разрешение, с тем, чтобы суметь распознать изменения спектра сигнала в динамике, мы «дробим» анализируемый сигнал на большое количество блоков, но при этом для каждого получаем огрубленный спектр. И наоборот, стремясь получить как можно более точный и ясный спектр, нам приходится жертвовать временным разрешением и делить сигнал на меньшее количество блоков. Эта дилемма называется принципом неопределенности спектрального анализа.

Как мы слышим? Психоакустика.



Слуховая система человека – сложный и вместе с тем очень интересно устроенный механизм. Чтобы более ясно представить себе, что для нас есть звук, нужно разобраться с тем, что и как мы слышим.

В анатомии ухо человека принято делить на три составные части: наружное ухо, среднее ухо и внутреннее ухо. К наружному уху относится ушная раковина, помогающая сконцентрировать звуковые колебания, и наружный слуховой канал. Звуковая волна, попадая в ушную раковину, проходит дальше, по слуховому каналу (его длина составляет около 3 см, а диаметр - около 0.5) и попадает в среднее ухо, где ударяется о барабанную перепонку, представляющую собой тонкою полупрозрачную мембрану. Барабанная перепонка преобразует звуковую волну в вибрации (усиливая эффект от слабой звуковой волны и ослабляя от сильной). Эти вибрации передаются по присоединенным к барабанной перепонке косточкам - молоточку, наковальне и стремечку – во внутреннее ухо, представляющее собой завитую трубку с жидкостью диаметром около 0.2 мм и длинной около 4 см. Эта трубка называется улиткой. Внутри улитки находится еще одна мембрана, называемая базилярной, которая напоминает струну длиной 32 мм, вдоль которой располагаются чувствительные клетки (более 20 тысяч волокон). Толщина струны в начале улитки и у ее вершины различна. В результате такого строения мембрана резонирует разными своими частями в ответ на звуковые колебания разной высоты. Так, высокочастотный звук затрагивает нервные окончания, располагающиеся в начале улитки, а звуковые колебания низкой частоты – окончания в ее вершине. Механизм распознавания частоты звуковых колебаний достаточно сложен. В целом он заключается в анализе месторасположения затронутых колебаниями нервных окончаний, а также в анализе частоты импульсов, поступающих в мозг от нервных окончаний.

Существует целая наука, изучающая психологические и физиологические особенности восприятия звука человеком. Эта наука называется психоакустикой. В последние несколько десятков лет психоакустика стала одной из наиболее важных отраслей в области звуковых технологий, поскольку в основном именно благодаря знаниям в области психоакустики современные звуковые технологии получили свое развитие. Давайте рассмотрим самые основные факты, установленные психоакустикой.

Основную информацию о звуковых колебаниях мозг получает в области до 4 кГц. Этот факт оказывается вполне логичным, если учесть, что все основные жизненно необходимые человеку звуки находятся именно в этой спектральной полосе, до 4 кГц (голоса других людей и животных, шум воды, ветра и проч.). Частоты выше 4 кГц являются для человека лишь вспомогательными, что подтверждается многими опытами. В целом, принято считать, что низкие частоты «ответственны» за разборчивость, ясность аудио информации, а высокие частоты – за субъективное качество звука. Слуховой аппарат человека способен различать частотные составляющие звука в пределах от 20-30 Гц до приблизительно 20 КГц. Указанная верхняя граница может колебаться в зависимости от возраста слушателя и других факторов.

В спектре звука большинства музыкальных инструментов наблюдается наиболее выделяющаяся по амплитуде частотная составляющая. Ее называют основной частотой или основным тоном. Основная частота является очень важным параметром звучания, и вот почему. Для периодических сигналов, слуховая система человека способна различать высоту звука. В соответствии с определением международной организации стандартов, высота звука - это субъективная характеристика, распределяющая звуки по некоторой шкале от низких к высоким. На воспринимаемую высоту звука влияет, главным образом, частота основного тона (период колебаний), при этом общая форма звуковой волны и ее сложность (форма периода) также могут оказывать влияние на нее. Высота звука может определяться слуховой системой для сложных сигналов, но только в том случае, если основной тон сигнала является периодическим (например, в звуке хлопка или выстрела тон не является периодическим и по сему слух не способен оценить его высоту).

Вообще, в зависимости от амплитуд составляющих спектра, звук может приобретать различную окраску и восприниматься как тон или как шум. В случае если спектр дискретен (то есть, на графике спектра присутствуют явно выраженные пики), то звук воспринимается как тон, если имеет место один пик, или как созвучие, в случае присутствия нескольких явно выраженных пиков. Если же звук имеет сплошной спектр, то есть амплитуды частотных составляющих спектра примерно равны, то на слух такой звук воспринимается как шум. Для демонстрации наглядного примера можно попытаться экспериментально «изготовить» различные музыкальные тона и созвучия. Для этого необходимо к громкоговорителю через сумматор подключить несколько генераторов чистых тонов (осцилляторов). Причем, сделать это таким образом, чтобы была возможность регулировки амплитуды и частоты каждого генерируемого чистого тона. В результате проделанной работы будет получена возможность смешивать сигналы от всех осцилляторов в желаемой пропорции, и тем самым создавать совершенно различные звуки. Поученный прибор явит собой простейший синтезатор звука.

Очень важной характеристикой слуховой системы человека является способность различать два тона с разными частотами. Опытные проверки показали, что в полосе от 0 до 16 кГц человеческий слух способен различать до 620 градаций частот (в зависимости от интенсивности звука), при этом примерно 140 градаций находятся в промежутке от 0 до 500 Гц.

На восприятии высоты звука для чистых тонов сказываются также интенсивность и длительность звучания. В частности, низкий чистый тон покажется еще более низким, если увеличить интенсивность его звучания. Обратная ситуация наблюдается с высокочастотным чистым тоном – увеличение интенсивности звучания сделает субъективно воспринимаемую высоту тона еще более высокой.

Длительность звучания сказывается на воспринимаемой высоте тона критическим образом. Так, очень кратковременное звучание (менее 15 мс) любой частоты покажется на слух просто резким щелчком – слух будет неспособен различить высоту тона для такого сигнала. Высота тона начинает восприниматься лишь спустя 15 мс для частот в полосе 1000 – 2000 Гц и лишь спустя 60 мс – для частот ниже 500 Гц. Это явление называется инерционностью слуха. Инерционность слуха связана с устройством базилярной мембраны. Кратковременные звуковые всплески не способны заставить мембрану резонировать на нужной частоте, а значит мозг не получает информацию о высоте тона очень коротких звуков. Минимальное время, требуемое для распознавания высоты тона, зависит от частоты звукового сигнала, а, точнее, от длины волны. Чем выше частота звука, тем меньше длина звуковой волны, а значит тем быстрее «устанавливаются» колебания базилярной мембраны.

В природе мы почти не сталкиваемся с чистыми тонами. Звучание любого музыкального инструмента является сложным и состоит из множества частотных составляющих. Как мы сказали выше, даже для таких звуков слух способен установить высоту их звучания, в соответствии с частотой основного тона и/или его гармоник. Тем не менее, даже при одинаковой высоте звучания, звук, например, скрипки отличается на слух от звука рояля. Это связано с тем, что помимо высоты звучания слух способен оценить также общий характер, окрас звучания, его тембр. Тембром звука называется такое качество восприятия звука, которое, в не зависимости от частоты и амплитуды, позволяет отличить одно звучание от другого. Тембр звука зависит от общего спектрального состава звучания и интенсивности спектральных составляющих, то есть от общего вида звуковой волны, и фактически не зависит от высоты основного тона. Немалое влияние на тембр звучания оказывает явление инерционности слуховой системы. Это выражается, например, в том, что на распознавание тембра слуху требуется около 200 мс.

Громкость звука – это одно из тех понятий, которые мы употребляем ежедневно, не задумываясь при этом над тем, какой физический смысл оно несет. Громкость звука – это психологическая характеристика восприятия звука, определяющая ощущение силы звука. Громкость звука, хотя и жестко связана с интенсивностью, но нарастает непропорционально увеличению интенсивности звукового сигнала. На громкость влияет частота и длительность звукового сигнала. Чтобы правильно судить о связи ощущения звука (его громкости) с раздражением (уровнем силы звука), нужно учитывать, что изменение чувствительности слухового аппарата человека не точно подчиняется логарифмическому закону.

Существуют несколько единиц измерения громкости звука. Первая единица – «фон» (в англ. обозначении - « phon»). Говорят, «уровень громкости звука составляет n фон», если средний слушатель оценивает сигнал как равный по громкости тону с частотой 1000 Гц и уровнем давления в n дБ. Фон, как и децибел, по сути не является единицей измерения, а представляет собой относительную субъективную характеристику интенсивности звука. На рис. 5 представлен график с кривыми равных громкостей.


Каждая кривая на графике показывает уровень равной громкости с начальной точкой отсчета на частоте 1000 Гц. Иначе говоря, каждая линия соответствует некоторому значению громкости, измеренной в фонах. Например, линия «10 фон» показывает уровни сигнала в дБ на разных частотах, воспринимаемых слушателем как равные по громкости сигналу с частотой 1000 Гц и уровнем 10 дБ. Важно заметить, что приведенные кривые не являются эталонными, а приведены в качестве примера. Современные исследования ясно свидетельствуют, что вид кривых в достаточной степени зависит от условий проведения измерений, акустических характеристик помещения, а также от типа источников звука (громкоговорители, наушники). Таким образом, эталонного графика кривых равных громкостей не существует.

Важной деталью восприятия звука слуховым аппаратом человека является так называемый порог слышимости - минимальная интенсивность звука, с которой начинается восприятие сигнала. Как мы видели, уровни равной громкости звука для человека не остаются постоянным с изменением частоты. Иными словами, чувствительность слуховой системы сильно зависит как от громкости звука, так и от его частоты. В частности, и порог слышимости также не одинаков на разных частотах. Например, порог слышимости сигнала на частоте около 3 кГц составляет чуть менее 0 дБ, а на частоте 200 Гц – около 15 дБ. Напротив, болевой порог слышимости мало зависит от частоты и колеблется в пределах 100 – 130 дБ. График порога слышимости представлен на рис. 6. Обратим внимание, что поскольку, острота слуха с возрастом меняется, график порога слышимости в верхней полосе частот различен для разных возрастов.


Частотные составляющие с амплитудой ниже порога слышимости (то есть находящиеся под графиком порога слышимости) оказываются незаметными на слух.

Интересным и исключительно важным является тот факт, что порог слышимости слуховой системы, также как и кривые равных громкостей, является непостоянным в разных условиях. Представленные выше графики порога слышимости справедливы для тишины. В случае проведения опытов по измерению порога слышимости не в полной тишине, а, например, в зашумленной комнате или при наличии какого-то постоянного фонового звука, графики окажутся другими. Это, в общем, совсем не удивительно. Ведь идя по улице и разговаривая с собеседником, мы вынуждены прерывать свою беседу, когда мимо нас проезжает какой-нибудь грузовик, поскольку шум грузовика не дает нам слышать собеседника. Этот эффект называется частотной маскировкой. Причиной появления эффекта частотной маскировки является схема восприятия звука слуховой системой. Мощный по амплитуде сигнал некоторой частоты f m вызывает сильные возмущения базилярной мембраны на некотором ее отрезке. Близкий по частоте, но более слабый по амплитуде сигнал с частотой f уже не способен повлиять на колебания мембраны, и поэтому остается «незамеченным» нервными окончаниями и мозгом.

Эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако в виду инерционности слуха, эффект маскировки может распространяться и во времени. Так некоторая частотная составляющая может маскировать другую частотную составляющую даже тогда, когда они появляются в спектре не одновременно, а с некоторой задержкой во времени. Этот эффект называется временной маскировкой. В случае, когда маскирующий тон появляется по времени раньше маскируемого, эффект называют пост-маскировкой. В случае же, когда маскирующий тон появляется позже маскируемого (возможен и такой случай), эффект называет пре-маскировкой.

Пространственное звучание.



Человек слышит двумя ушами и за счет этого способен различать направление прихода звуковых сигналов. Эту способность слуховой системы человека называют бинауральным эффектом. Механизм распознавания направления прихода звуков сложен и, надо сказать, что в его изучении и способах применения еще не поставлена точка.

Уши человека расставлены на некотором расстоянии по ширине головы. Скорость распространения звуковой волны относительно невелика. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и мозг интерпретирует это как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук приходит в одно ухо быстрее, чем во второе, что позволяет мозгу соответствующим образом интерпретировать это как приход сигнала слева или справа и даже приблизительно определить угол прихода. Численно, разница во времени прихода сигнала в левое и правое ухо, составляющая от 0 до 1 мс, смещает мнимый источник звука в сторону того уха, которое воспринимает сигнал раньше. Такой способ определения направления прихода звука используется мозгом в полосе частот от 300 Гц до 1 кГц. Направление прихода звука для частот расположенных выше 1 кГц определяется мозгом человека путем анализа громкости звука. Дело в том, что звуковые волны с частотой выше 1 кГц быстро затухают в воздушном пространстве. Поэтому интенсивность звуковых волн, доходящих до левого и правого ушей слушателя, отличаются на столько, что позволяет мозгу определять направление прихода сигнала по разнице амплитуд. Если звук в одном ухе слышен лучше, чем в другом, следовательно источник звука находится со стороны того уха, в котором он слышен лучше. Немаловажным подспорьем в определении направления прихода звука является способность человека повернуть голову в сторону кажущегося источника звука, чтобы проверить верность определения. Способность мозга определять направление прихода звука по разнице во времени прихода сигнала в левое и правое ухо, а также путем анализа громкости сигнала используется в стереофонии.

Имея всего два источника звука можно создать у слушателя ощущение наличия мнимого источника звука между двумя физическими. Причем этот мнимый источник звука можно «расположить» в любой точке на линии, соединяющей два физических источника. Для этого нужно воспроизвести одну аудио запись (например, со звуком рояля) через оба физических источника, но сделать это с некоторой временной задержкой в одном из них и соответствующей разницей в громкости. Грамотно используя описанный эффект можно при помощи двухканальной аудио записи донести до слушателя почти такую картину звучания, какую он ощутил бы сам, если бы лично присутствовал, например, на каком-нибудь концерте. Такую двухканальную запись называют стереофонической. Одноканальная же запись называется монофонической.

На самом деле, для качественного донесения до слушателя реалистичного пространственного звучания обычной стереофонической записи оказывается не всегда достаточно. Основная причина этого кроется в том, что стерео сигнал, приходящий к слушателю от двух физических источников звука, определяет расположение мнимых источников лишь в той плоскости, в которой расположены реальные физические источники звука. Естественно, «окружить слушателя звуком» при этом не удается. По большому счету по той же причине заблуждением является и мысль о том, что объемное звучание обеспечивается квадрофонической (четырехканальной) системой (два источника перед слушателем и два позади него). В целом, путем выполнения многоканальной записи нам удается лишь донести до слушателя тот звук, каким он был «услышан» расставленной нами звукопринимающей аппаратурой (микрофонами), и не более того. Для воссоздания же более или менее реалистичного, действительно объемного звучания прибегают к применению принципиально других подходов, в основе которых лежат более сложные приемы, моделирующие особенности слуховой системы человека, а также физические особенности и эффекты передачи звуковых сигналов в пространстве.

Одним из таких инструментов является использование функций HRTF (Head Related Transfer Function). Посредством этого метода (по сути – библиотеки функций) звуковой сигнал можно преобразовать специальным образом и обеспечить достаточно реалистичное объемное звучание, рассчитанное на прослушивание даже в наушниках.

Суть HRTF – накопление библиотеки функций, описывающих психофизическую модель восприятия объемности звучания слуховой системой человека. Для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное «цифровое ухо». В случае использования манекена суть проводимых измерений состоит в следующем. В уши манекена встраиваются микрофоны, с помощью которых осуществляется запись. Звук воспроизводится источниками, расположенными вокруг манекена. В результате, запись от каждого микрофона представляет собой звук, «прослушанный» соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху ( затухания и искажения как следствия огибания головы и отражения от разных ее частей). Расчет функций HRTF производится с учетом исходного звука и звука, «услышанного» манекеном. Собственно, сами опыты заключаются в воспроизведении разных тестовых и реальных звуковых сигналов, их записи с помощью манекена и дальнейшего анализа. Накопленная таким образом база функций позволяет затем обрабатывать любой звук так, что при его воспроизведении через наушники у слушателя создается впечатление, будто звук исходит не из наушников, а откуда-то из окружающего его пространства.

Таким образом, HRTF представляет собой набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе человека. Рассчитанные однажды опытным путем, HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Не смотря на удачность идеи, HRTF имеет, конечно, и свои отрицательные стороны, однако в целом идея использования HRTF является вполне удачной. Использование HRTF в том или ином виде лежит в основе множества современных технологий пространственного звучания, таких как технологии QSound 3 D ( Q3 D), EAX, Aureal3 D ( A3 D) и другие.
Цифровые аудио сигналы

Компьютер – это цифровое устройство, то есть электронное устройство, в котором рабочим сигналом является дискретный сигнал. Сегодняшние компьютеры оперируют дискретными сигналами, несущими двоичные значения, условно обозначаемые как «да» и «нет» (на электрическом уровне: 0 вольт и V вольт, для некоторого ненулевого значения V). С помощью одного двоичного сигнала за один шаг можно передать информацию об одном из всего двух положений: 0 («да») или 1 («нет»). С помощью N двоичных сигналов за один шаг можно передать информацию об одном из 2 N положений (2 N – это число комбинаций нулей и единиц для N сигналов). Взаимодействие всех составляющих компьютер блоков происходит путем обмена и обработки одним или одновременно несколькими двоичными сигналами. Все – коды управления, а также сама обрабатываемая информация – все представляется в компьютере в виде чисел. По этой причине и аудио сигналы в цифровой аппаратуре представляют в виде чисел.

Итак, каким же образом можно описать аналоговый аудио сигнал в цифровой форме? Реальный аудио сигнал – это сложное по форме колебание, некая сложная зависимость амплитуды звуковой волны от времени. Преобразование аналогового звукового сигнала в цифровой вид называется аналогово-цифровым преобразованием или оцифровкой. Процесс такого преобразования заключается в:



· осуществлении замеров величины амплитуды аналогового сигнала с некоторым временным шагом - дискретизация;



· последующей записи полученных значений амплитуды в численном виде – квантование.



Дискретизация



Процесс дискретизации по времени - это процесс получения мгновенных значений преобразуемого аналогового сигнала с определенным временным шагом, называемым шагом дискретизации (см. рис. 7).


Количество осуществляемых в одну секунду замеров величины сигнала называют частотой дискретизации или частотой выборки, или частотой сэмплирования (от англ. « sampling» – «выборка»). Очевидно, что чем меньше шаг дискретизации, тем выше частота дискретизации (то есть, тем чаще регистрируются значения амплитуды), и, значит, тем более точное представление о сигнале мы получаем. Это рассуждение подтверждается доказанной теоремой, теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно этой теореме, аналоговый сигнал с ограниченным спектром может быть точно описан дискретной последовательностью значений его амплитуды, если эти значения следуют с частотой, как минимум вдвое превышающей наивысшую частоту спектра. Иначе говоря, аналоговый сигнал, в котором частота наивысшей составляющей спектра равна F m, может быть точно описан последовательностью дискретных значений амплитуды, если для частоты дискретизации F d выполняется: . На практике это означает следующее: для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых человеком частот исходного аналогового сигнала (0 – 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации при оцифровке сигнала составляло не менее 40 кГц.

Казалось бы, для завершения процесса оцифровки теперь осталось лишь записать измеренные мгновенные значения амплитуды сигнала в численной форме. Полученная последовательность чисел (по одному результату замера амплитуды сигнала на каждый шаг) и образует цифровую форму исходного аналогового сигнала – так называемый импульсный сигнал . Здесь, однако, обнаруживается основная трудность оцифровки, заключающаяся в невозможности записать измеренные значения сигнала с идеальной точностью.



Линейное (однородное) квантование



Допустим, что для записи одного значения амплитуды сигнала в памяти компьютера мы отводим N бит. Соответственно, с помощью одного N -битного слова (слово – последовательность N бит) можно описать 2 N разных положений. Допустим теперь, что амплитуда оцифровываемого сигнала колеблется в пределах от -1 до 1 некоторых условных единиц. Заметим, что измеренным значениям амплитуды ничто не мешает быть дробными (например, -0.126 или 0.997). Представим этот диапазон изменения амплитуды - динамический диапазон сигнала - в виде 2 N -1 равных промежутков, разделив его на 2 N уровней - квантов (произведя таким образом однородное, линейное разбиение амплитудной шкалы). Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс называется квантованием по амплитуде. Говоря более формальным языком, квантование по амплитуде – это процесс замены реальных (измеренных) значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования,а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. В случае линейного разбиения амплитудной шкалы на уровни, квантование называют линейным (однородным) . На рис. 8 представлен пример такого квантования.


Как видно, результатом такой оцифровки стал ступенчатый сигнал, составленный из прямоугольников, каждый из которых имеет ширину равную величине шага дискретизации, и высоту равную измеренному значению амплитуды сигнала.

Очевидно, что точность округления зависит от выбранного количества (2 N) уровней квантования, которое, в свою очередь, зависит от количества бит ( N), отведенных для записи значения амплитуды. Чем больше уровней квантования и чем ближе они друг к другу (а, для некоторого фиксированного диапазона изменения амплитуды расстояние между уровнями квантования обратно пропорционально их количеству), тем на меньшую величину приходится округлять измеренные значения амплитуды, и, таким образом, тем меньше получаемая погрешность квантования. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа – отсчетами или сэмплами (от англ. “ sample” – “замер”).Считается, что погрешность квантования, являющаяся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Описанный способ оцифровки сигнала - дискретизация сигнала во времени в совокупности с методом однородного квантования - называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation – PCM). Стандартный аудио компакт-диск ( CD- DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM, с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.

Сложности, связанные с оцифровкой



Не смотря на кажущуюся простоту и интуитивность процесса оцифровки, эта процедура сопряжена со многими трудностями и проблемами.

Во-первых, частота дискретизации, устанавливаемая теоремой Котельникова, является минимально необходимой, но не достаточной. Дискретизация вносит дополнительные помехи в спектр исходного сигнала, добавляя в него его же зеркальную копию. Поэтому значение частоты дискретизации должно выбираться несколько большим, чем частота, устанавливаемая теоремой Котельникова, чтобы сделать возможной успешную фильтрацию лишних спектральных составляющих.

Во-вторых, квантование значений сигнала привносит в спектр сигнала дополнительную помеху, называемую шумом квантования или шумом дробления . Шумом (ошибкой) квантования называют сигнал, составляющий разницу между восстановленным цифровым и исходным аудио сигналами. Эта разница образуется в результате округления измеренных значений сигнала. При этом выполняется следующая закономерность: чем выше разрядность квантования, тем ниже уровень шума квантования (поскольку тем на меньшее значение требуется округлять каждое измеренное значение сигнала). Природа шума квантования такова, что ширина спектральной области, в которой он простирается, пропорциональна значению частоты дискретизации. При этом при фиксированной разрядности квантования, общая энергия шума квантования остается постоянной. А это значит, что чем выше частота дискретизации, тем в более широкой спектральной области простирается шум квантования и, соответственно, тем ниже его мощность в некоторой фиксированной интересующей нас полосе спектра, например, в полосе слышимых частот. Этот факт имеет большое практическое значение.

Надо сказать, что уровень шума квантования также зависит и от формы самого сигнала. В идеальном случае, ошибка при округлении значений сигнала является случайной и, значит, спектр шума квантования оказывается равномерным. В реальности, однако, этого не происходит. Форма реальных звуковых сигналов является в определенной степени не случайной, а, значит, и ошибка квантования тоже является не случайной. В этом случае спектр шума квантования оказывается не равномерным и концентрируется в какой-то определенной области, что отрицательно сказывается на звучании цифрового сигнала. Существует несколько способов борьбы с этим явлением. Так, нежелательную концентрацию шума квантования в некоторой частотной области можно нейтрализовать путем подмешивания к исходному аналоговому сигналу некоторого слабого по мощности псевдослучайного шума. Этот шум минимизирует степень зависимости ошибок округления от формы преобразуемого сигнала, что хорошо рассеивает спектр шума квантования и делает его равномерным. Таким образом, описанный прием (называемый дизерингом, от англ. « dithering» – «дрожание») как бы подменяет нежелательный шум квантования искусственно подмешанным псевдослучайным шумом. При этом подмешанный псевдослучайный шум оказывается менее заметным на слух, чем тот шум квантования, какой получился бы без применения дизеринга. Еще один прием борьбы с уровнем шума квантования называется формовкой шума (от англ. “ noise shaping”). Идея приема заключается в преднамеренном изменении формы исходного аналогового сигнала специальным образом, чтобы последующее квантование привело к появлению шума квантования, основная энергия которого расположилась бы в наименее заметных на слух частотных областях. Формирование шума с таким спектром достигают путем использования фильтра, моделирующего кривую равной громкости (об этой кривой мы говорили выше).

Импульсный сигнал, получаемый в результате аналогово-цифрового преобразования, из-за несовершенности преобразующих устройств имеет некоторые изъяны. Эти изъяны выражаются в случайных отклонениях длительностей прямоугольных импульсов от номинальной величины шага дискретизации, а также в неабсолютной крутизне фронтов импульсов. Говоря иначе, осуществление выборки сигнала при оцифровке происходит не через абсолютно равные промежутки времени, а с некоторыми случайными отклонениями от номинала, при этом результирующий импульсный сигнал вдобавок имеет неидеальную прямоугольную форму. Если, скажем, дискретизация проводится с частотой 44.1 кГц, то отсчеты берутся не точно каждые секунды, а то чуть раньше, то чуть позднее. А так как входной сигнал постоянно меняется, то такая погрешность приводит к регистрации не совсем верного уровня сигнала. Описанный неприятный эффект называется джиттером (от англ. « jitter» – «дрожание») и по сути является исключительно результатом неабсолютной стабильности аппаратуры (АЦП). На слух джиттер воспринимается как некоторое дрожание сигнала на высоких частотах, при этом на низких частотах джиттер выражается в некотором «размазывании» спектра сигнала. Для борьбы с джиттером применяют высокостабильные тактовые генераторы. Следует заметить, что причиной появления джиттера может быть не только аналогово-цифровое преобразование, но и передача импульсного сигнала по цифровому каналу от одного устройства к другому. В этом случае появление джиттера является результатом неидеальной коммутации/синхронизации устройств и может быть устранено только путем использования аппаратуры, регенерирующей цифровой сигнал.

Рассмотрим, наконец, еще один неприятный эффект оцифровки, называемый гранулярным шумом. Гранулярным шумом(от англ. « granular noise») называют эффект нестабильности округления в процессе квантования. Если величина сигнала незначительно меняется около некоторой величины, являющейся границей между двумя соседними уровнями квантования, даже самые маленькие колебания величины сигнала вокруг этой границы могут вызывать заметные изменения результатов округления при квантовании значений амплитуды. Это связано с тем, что квантователь в этом случае округляет измеренное значение сигнала то до величины одного, то до величины второго из соседствующих уровней квантования.



Другие способы оцифровки.



Рассматривать все существующие способы оцифровки мы не будем, поскольку это потребовало бы от нас серьезного углубления в тему. Тем не менее, некоторые способы все же стоят пусть и беглого упоминания.

Так, рассмотренное выше однородное квантование является, конечно же, не единственным способом квантования. Как мы уже говорили, восприятие громкости звука человеком носит нелинейный характер – нарастание интенсивности звука как степенной функции воспринимается на слух как линейное нарастание громкости. Следовательно, изменения амплитуды слабого по интенсивности сигнала различаются слухом намного лучше, чем изменения амплитуды в областях высокой интенсивности. Это в свою очередь означает, что погрешность квантования сигнала в областях со слабой амплитудой оказывается намного более заметной, чем погрешность квантования в областях, где сигнал характеризуется высокими значениями интенсивности. Иными словами, в областях, где амплитуда сигнала является значительной, мы можем позволить себе допускать более высокую погрешность квантования, чем в областях со слабой амплитудой. Этот факт используется при неоднородном квантовании. С целью уменьшения влияния погрешности квантования на воспринимаемое качество оцифровки, способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования). Соответственно, при квантовании, слабый по величине сигнал округляется на меньшие значения, чем более интенсивный сигнал. Это автоматически учитывает психоакустические особенности слуха и обеспечивает менее заметные на слух погрешности квантования. Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной импульсно-кодовой модуляцией - неоднородной ИКМ ( Nonuniform PCM).

Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция – разностная ИКМ(англ. « Differential PCM» – DPCM). До сих пор мы говорили о методе импульсно-кодовой модуляции, подразумевающей квантование абсолютных значений сигнала. В случае разностной ИКМ квантованию подвергают относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много вариаций, причем некоторые из них подразумевают использование квантователя с предсказателем сигнала. Такие квантователи производят меньше ошибок квантования за счет предсказания сигнала на каждом шаге преобразования, опираясь на информацию об уже известных предыдущих значениях сигнала.



Кодирование цифровых аудио сигналов



По сути дела, та или иная цифровая форма представления аналоговых аудио сигналов уже является способом кодирования – последовательность чисел, описывающая аналоговый аудио сигнал, сама по себе является цифровым кодом. Однако кодирование, о котором мы будем сейчас говорить, - это нечто другое. Сейчас рассмотрим методы кодирования цифровых аудио сигналов.

Оцифрованный аудио сигнал «в чистом виде» (например, в форме одной из рассмотренных выше вариаций ИКМ) является достаточно точной, но не самой компактной формой записи исходного аналогового сигнала.

Посудите сами. Ч тобы получить полную информацию об оригинальном аналоговом сигнале в частотной полосе от 0 до 20 кГц (в слышимом диапазоне частот), аналоговый сигнал необходимо дискретизовать с частотой не менее 40 кГц. Так, стандарт CD - DA (стандарт записи данных на привычных для всех аудио компакт-дисках) устанавливает следующие параметры кодирования: двух- или одноканальная запись в формате ИКМ с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит. Один час музыки в таком формате занимает объем около 600 Мб (60 минут * 60 секунд * 2 канала * 44100 отсчетов в секунду * 2 байта на отсчет = около 605 Мб). Учитывая, что, например, музыкальная коллекция рядового любителя музыки вполне может насчитывать 5000 треков средней продолжительностью около 3 минут каждый, объем памяти, требуемый для ее хранения в исходном цифровом виде, оказывается очень внушительным. Поэтому хранение относительно больших объемов аудио данных, гарантирующее достаточно хорошее качество звучания, требует применения разных «ухищрений», позволяющих уплотнить данные.

В целом, все существующие методы кодирования аудио информации можно условно разделить всего на два типа.

1. Сжатие данных без потерь (англ. « lossless coding») - это способ кодирования (уплотнения) цифровой аудио информации, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатого потока (под понятием «исходные данные» здесь подразумевается исходный вид оцифрованных аудио данных). К такому способу уплотнения данных прибегают в случаях, когда требуется абсолютное, стопроцентное сохранение качества оригинального звучания аудио данных. Существующие сегодня алгоритмы беспотерьного сжатия позволяют сократить занимаемый данными объем на 20-50% и при этом гарантировать стопроцентное восстановление исходного цифрового материала из сжатых данных. Механизмы работы подобных кодеров сходны с механизмами работы архиваторов общих данных, таких, как, например, ZIP или RAR, но при этом адаптированы специально для сжатия аудио данных. Беспотерьное кодирование , хотя и идеально с точки зрения сохранности качества аудио материалов, но оказывается неспособным обеспечить высокий уровень компрессии.

2. Существует другой, более современный путь уплотнения данных. Это так называемое сжатие данных с потерями (англ. « lossy coding»).Цель такого кодирования заключается в достижении любыми путями максимально высокого коэффициента компрессии данных при сохранении качества их звучания на приемлемом уровне. В основе идеи кодирования с потерями лежит два простых основополагающих соображения:



· исходные цифровые аудио данные избыточны – они содержат много лишней, бесполезной для слуха информации, которую можно удалить, тем самым, повысив коэффициент компрессии;



· требования к качеству звучания аудио материала могут быть разными и зависят от конкретных целей и сфер использования.



Кодирование с потерями потому и называется «с потерями», что приводит к утрате некоторой части аудио информации. Такое кодирование приводит к тому, что декодированный сигнал при воспроизведении звучит похоже на оригинальный, но фактически перестает быть ему идентичным. В основе большинства методов кодирования с потерями лежит использование психоакустических свойств слуховой системы человека, а также различных хитростей, связанных с переквантованием и передискретизацией сигнала. В частотности, в процессе компрессии аудио данные анализируются кодером на предмет выявления различных деталей звучания, которыми можно пренебречь. Замаскированные частоты, неслышимые и слабослышимые детали звучания – всем этим можно пожертвовать с целью достижения более высокого значения коэффициента компрессии. Там, где в звучании важна лишь разборчивость (например, в телефонии, где наличие частот выше 4 кГц не является необходимым), аудио информация в процессе кодирования подвергается серьезному «упрощению», что вкупе с использованием «умных» квантователей и удачных «жадных» алгоритмов компрессии данных позволяет достичь высочайших степеней компрессии (1 : 50 и выше). Там, где качеству звучания предъявляются более высокие требования (например, в портативных и бытовых аудио устройствах), аудио материалы подвергают более щадящему кодированию. Надо отметить, что степень агрессивности кодера по отношению к деталям звучания может регулироваться (эта способность, впрочем, зависит от конкретной реализации). В среднем, современные кодеры даже при столь высокой степени компрессии, как 1 : 10 позволяют обеспечить отличное звучание, качество которого средним слушателем на средней аппаратуре оценивается как равное качеству звучания исходных аудио данных.

Беспотерьные кодеры



Сегодня существует множество кодеров аудио данных, основанных на идее кодирования с потерями. Вот только некоторые из них: MPEG-1 Layer 3 (всем известный как MP3), Windows Media Audio ( WMA), Ogg Vorbis ( OGG), MusePack ( MPC), MPEG-2/4 AAC и другие. Давайте чуть подробнее остановимся на их рассмотрении.



MPEG-1 Layer 3



Известный сегодня фактически каждому пользователю компьютера под незамысловатой маркой « MP3» кодек MPEG-1 Layer 3 – это наиболее старый из всех распространенных на сегодня lossy-кодеков. Своим названием он обязан группе MPEG, которая занималась его разработкой и которая продолжает разрабатывать новые аудио и видео кодеки. О ней стоит упомянуть отдельно.

MPEG расшифровывается как «Moving Picture Coding Experts Group», дословно – «группа экспертов по кодированию подвижных изображений». Группа MPEG ведет свою историю с января 1988 года и занимается разработкой различных алгоритмов и стандартов кодирования аудио и видео информации. В собраниях MPEG принимают участие несколько сотен специалистов из более чем двухсот крупных и мелких компаний. При этом большая часть участников MPEG - это специалисты, занятые в тех или иных научных и академических учреждениях. На сегодняшний день группой MPEG разработаны следующие стандарты:



· MPEG-1 (принят в ноябре 1992 г.) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации;



· MPEG-2 (принят в ноябре 1994 г.) - стандарт кодирования данных для цифрового телевещания;



· MPEG-4 - стандарт для мультимедиа приложений (в его разработке еще далеко не поставлена точка);



· MPEG-7 - универсализованный стандарт работы с мультимедиа информацией, предназначенный для обработки, компоновки и управления мультимедиа информацией.



Стандарт MPEG-1 представляет собой, по сути, целый комплект аудио и видео стандартов. Согласно стандартам ISO ( International Standards Organization), аудио часть MPEG-1 включает в себя три алгоритма различных уровней сложности: Layer 1 (уровень 1), Layer 2 (уровень 2) и Layer 3 (уровень 3, называемый большинством просто « MP 3»). Общая структура процесса кодирования одинакова для всех уровней MPEG-1 . Вместе с тем, несмотря на схожесть уровней в общем подходе к кодированию, уровни различаются по целевому использованию и задействованным в кодировании внутренним механизмам. Для каждого уровня определен свой формат записи выходного потока данных и, соответственно, свой алгоритм декодирования. Алгоритмы MPEG-1 основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека – о них мы упоминали выше.

Процедура кодирования аудио информации, вкратце, представляет собой следующий процесс. В начале кодирования входной цифровой аудио поток в формате PCM с помощью цифровых фильтров разделяется на несколько частотных полос. Дальнейший процесс зависит от Layer ' a .

В случае Layer 3 (то есть, в случае MP 3) в каждой полосе сигнал раскладывается на частотные составляющие спектра (применяется косинусное преобразование - MDCT , частный случай преобразования Фурье) в результате чего получается набор коэффициентов разложения. Вся дальнейшая обработка сигнала нацелена на максимально возможное упрощение сигнала с целью достижения наиболее эффективного переквантования этих коэффициентов и их записи. Спектр входного сигнала очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник. На следующем этапе производится психоакустический анализ кодируемого аудио материала в диапазоне слышимых частот. Вышеописанные процессы преобразования позволяют исключить из исходного аудио материала больше половины информации. На заключительном этапе кодирования производится сжатие уже готового потока данных с использованием упрощенного аналога алгоритма Хаффмана ( Huffman).

В случае сжатия данных с использованием Layer 2 идея упрощения сигнала остается той же, однако переквантованию подвергаются не коэффициенты MDCT , а отсчеты амплитудного сигнала в каждой частотной полосе. Здесь нужно отметить, что в соответствии с приблизительно аналогичной схемой кодирования работают и некоторые другие lossy -кодеки.

Комплект MPEG-1 предусмотрен для кодирования аудио сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Три упомянутых выше уровня MPEG-1 различаются свой целевой направленностью, механизмами кодирования и, таким образом, обеспечивают различные степени сжатия. Так, например, аудио данные в формате [ИКМ / 44.1 кГц / 16 бит / стерео], Layer 1 позволяет сохранить без особо ощутимых потерь качества при скорости потока (битрейте) 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом данными объеме; Layer 2 обеспечивает субъективно такое же качество при 192 - 224 Кбит/с, а Layer III ( MP 3) - при 128-160. Нельзя говорить о выигрыше или проигрыше одного уровня перед другим, так как каждый уровень разработан для достижения своей собственной цели. Например, преимущество Layer 3 заключается в том, что фактически он позволяет сжимать информацию в 8-12 раз (в зависимости от битрейта) без сильно ощутимых потерь качества исходного звучания. При этом, однако, обеспечиваемая им скорость компрессии является самой низкой среди всех уровней. Layer 2 потенциально способен обеспечить более высокое качество кодирования в виду более «легкой» внутренней обработки сигнала в процессе преобразования. В то же время, Layer 2 не позволяет достичь таких высоких степеней компрессии, какие достигаются при использовании Layer 3.



Ogg Vorbis



Одной из негативных сторон кодека MP3 ( MPEG-1 Layer 3) являлась и является его коммерческая основа, заключающаяся как минимум в том, что каждый производитель, создающий новый программный или аппаратный MP3-кодер, обязан платить отчисления изобретателям кодека. Эта ситуация не могла не вызывать недовольство среди пользователей и разработчиков. Так появились независимые разработки в области компрессии аудио.

Кодек Ogg Vorbis вышел в свет в июне 2000 года. Он является частью проекта Ogg Squish, нацеленного на создание полностью открытой системы мультимедиа. Разработчиком проекта является группа, именующаяся Xiphophorus. В основе Ogg Vorbis лежат те же идеи, что и в основе MPEG-1 Layer II, при этом Ogg Vorbis использует свои собственные оригинальные математические алгоритмы, а также собственную психоакустическую модель, что освобождает его разработчиков от необходимости выплачивать какие-то лицензионные отчисления или производить иные выплаты сторонним фирмам-производителям. Кодек Ogg Vorbi s, будучи созданным позже MPEG-1, является несколько более развитым. Он рассчитан на сжатие данных на всех возможных битрейтах без ограничений, от 8 Кбит/с до 512 Кбит/с. Кодер позволяет хранить внутри файлов-контейнеров подробные комментарии об исполнителе и названии композиции, а также предусматривает возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов и поддержку техники «масштабируемых битрейтов» - возможности изменения битрейта аудио потока без необходимости его декодирования.



MusePak



Естественно, Ogg Vorbis является не единственной некоммерческой разработкой такого рода. Энтузиасты продолжали и продолжают делать попытки создания альтернативных качественных аудио кодеков.

Кодек MPEGplus (MPEG+), переименованный позднее в MusePack из-за проблем, которые появились у автора кодека в связи с тем, что название последнего содержало в себе аббревиатуру "MPEG", - это еще один некоммерческий lossy-кодек. MusePack создан «в домашних условиях» и разрабатывался(ется) в основном двумя людьми: Andre Buschmann и Frank Klemm. MusePak, также как и Ogg Vorbis, базируется на идеях MPEG-1 Layer II. В отличие от Ogg Vorbis , кодек MusePak переживает сегодня не самые лучшие времена – в то время, как Ogg Vorbis получает все более и более широкое распространение (как среди пользователей, так и среди производителей), MusePak остается малоизвестным, хотя и незаслуженно.



Windows Media Audio



Гигант компьютерной индустрии Microsoft на некотором этапе понял, что остаться в стороне от бурного развития цифровой аудио индустрии – значит проиграть большую долю рынка конкурентам. Поэтому аудио кодек от Microsoft не заставил себя долго ждать.

Кодек Windows Media Audio (сокращенно WMA) является сегодня собственной разработкой компании Microsoft и успешно ею продвигается. Изначально, кодек WMA разрабатывался фирмой Voxware и имел название Voxware Audio Codec, однако впоследствии компания забросила его доработку, остановившись на v4.0. Разработки Voxware были выкуплены компанией Microsoft, серьезно доработаны и представлены общественности в виде аудио кодека под названием Windows Media Audio (сокращенно WMA).

Если кодек MP3 был изначально стандартизован на предмет разрешенных значений битрейтов и других основных параметров, то WMA изменялся параллельно своему становлению и развитию. На сегодняшний день существует несколько версий кодека WMA: v1, v2, v7, v8 и v9. Внутреннее устройство и механизмы кодирования кодека держатся компанией Microsoft в секрете, однако, опираясь на результаты некоторых тестов, можно предположить, что идеи, легшие в основу WMA, не сильно отличаются от идей, на которых базируются методы MPEG-1.



MPEG-2/4 AAC



Группа MPEG, конечно, не удовлетворилась разработкой аудио кодека, включенного в стандарт MPEG-1. Исследования в области кодирования аудио продолжались и вылились в создание новых стандартов кодирования аудио от MPEG.

Общий стандарт MPEG-2 разрабатывался специально для кодирования телевизионных сигналов. В апреле 1997 комплект MPEG-2 получил «продолжение» в виде алгоритма MPEG-2 AAC ( MPEG-2 Advanced Audio Coding – продвинутое аудио кодирование). Стандарт MPEG-2 AAC стал результатом кооперации усилий института Fraunhofer, а также компаний Sony, NEC и Dolby, и является технологическим приемником MPEG-1, при этом намного более развитым. Поскольку между опубликованием MPEG -2 AAC и его стандартизацией прошло достаточно много времени, свет увидели несколько разновидностей этого алгоритма от независимых коммерческих и некоммерческих разработчиков: Homeboy AAC , AT & T a 2 b AAC, Astrid/ Quartex AAC, Liquifier AAC, FAAC ( Freeware Audio Coder), Mayah AAC и PsyTEL AAC. Почти все приведенные разновидности алгоритма AAC не являются совместимыми между собой.

Так же, как и в комплекте аудио стандартов MPEG-1, в основе алгоритма AAC лежит психоакустический анализ сигнала. Вместе с тем, алгоритм AAC имеет в своем механизме множество дополнений, направленных на улучшение качества выходного аудио сигнала. В частности, используется другой тип преобразований, улучшены методы шумовой обработки, модернизирован метод записи выходного бит-потока и т.д. Следует отметить, что кодек AAC не является обратно совместимым с уровнями MPEG-1, а значит, аудио материалы в формате MPEG-2 AAC не могут быть декодированы с помощью декодера MPEG-1.

MPEG-2 AAC предусматривает три различных профиля (или, в терминологии MPEG-1, «уровня») кодирования: Main, LC ( Low Complexity) и SSR ( Scalable Sampling Rate). В зависимости от того, какой профиль используется для кодирования, изменяется время кодирования, размер получаемого цифрового потока и качество его звучания. Наивысшее качество звучания (при самой низкой скорости компрессии и декомпрессии) обеспечивает основной профиль Main. Это связано с тем, что профиль Main включает в себя все механизмы анализа и обработки входного потока. Профили LC и SSR являются упрощенными, но при этом более скоростными.

Спустя несколько лет после стандартизации MPEG-2, свет увидел новый комплект стандартов, комплект MPEG-4 . По обыкновению, стандарт MPEG-4, помимо прочего, описывает и методы кодирования аудио. Эти методы объединены под общим названием MPEG-4 AAC.

В качестве средств компрессии аудио в MPEG-4 используется целый комплекс стандартов аудио кодирования: улучшенный и доработанный алгоритм MPEG-2 AAC, алгоритм TwinVQ, а также алгоритмы кодирования речи HVXC ( Harmonic Vector eXcitation Coding) и CELP ( Code Excited Linear Predictive). Можно сказать, что в целом, стандарт MPEG-4 является логическим продолжением MPEG-2 AAC. MPEG-4 AAC стандартизует следующие типы объектов (именно так называются профили или уровни в MPEG-4 AAC):



· MPEG-4 AAC LC (Low Complexity)



· MPEG-4 AAC Main



· MPEG-4 AAC SSR (Scalable Sampling Rate)



· MPEG-4 AAC LTP (Long Term Prediction)



· MPEG-4 Version 2



· MPEG-4 Version 3 ( включая HE-AAC)



Как видно, первые три позаимствованы у MPEG-2 AAC, четвертый же является новшеством. LTP основан на методах предсказания сигнала и является более сложным и более ресурсоемким алгоритмом, нежели остальные. Version 2 и Version 3 - это пакеты механизмов, расширяющих основной инструментарий кодирования стандарта MPEG-4 AAC . Основным нововведением в стандарт MPEG-4, введенным Version 3, является стандартизация в мая 2003 года алгоритма HE-AAC (High Efficiency AAC – высокоэффективный AAC ), известного также под именем aacPlus.

Расширение AAC под именем aacPlus было анонсировано компанией Coding Tech nologies 9 октября 2002 года. aacPlus основан на использовании технологии SBR (Spectral Band Replication). Технология SBR предназначена для улучшения качества передачи верхнего частотного диапазона. Идея технологии и предпосылки к ее созданию состоят вот в чем. Дело в том, что кодеки, использующие психоакустическую модель, как показывает практика, имеют один общий недостаток: все они обеспечивают довольно хорошее качество звучания во всем диапазоне слышимых частот, но только до битрейта 128-112 Кбит/с. Компрессия на более низких битрейтах приводит к очень заметной деградации качества звучания, что заставляет разработчиков кодеков при использовании низких битрейтов принудительно ограничивать кодируемый диапазон частот. Технология SBR является попыткой устранить этот досадный недостаток за счет сохранения ограниченной информации о верхней полосе частотного спектра сигнала в процессе кодирования и последующего искусственного синтеза (воссоздания) верхних частот в процессе декодирования. Технология хоть и является очень искусственным методом решения проблемы, но, тем не менее, оказывает благотворное влияние на восприятие закодированных таким образом аудио материалов.

Надо сказать, что «комплектация» MPEG -4 новыми подстандартами и дополнениями продолжается, так что список механизмов и инструментарий кодирования MPEG -4 может постепенно расширяться. Кроме того, нужно заметить, что не все стандартизованные в MPEG -4 методы кодирования нашли отражение в реально существующих аппаратных или программных продуктах. Это связано с тем, что многое из описанного в MPEG -4 стандартизует способы обмена информации, но не сами способы кодирования. Многие идеи кодирования (в особенности, это касается компрессии видео) требуют даже по сегодняшним меркам гигантских вычислительных способностей, так что до полной реализации всего предусмотренного в MPEG -4 еще далеко.

В заключении разговора о lossy -кодировании стоить заметить следующее. Кодирование с потерями – это очень удобный инструмент. Однако в отличие от беспотерьного кодирования – достаточно опасный инструмент. Применяться lossy -кодирования должно там, где ему место. Совершенно очевидно, что кодированию с потерями ввиду самой его сути не место, например, в студийной звукозаписи. При этом совершенно нелогично отказываться от его использования, например, в телефонии. Таким образом, очень важно уметь правильно пользоваться имеющимся под рукой инструментарием и, образно говоря, не использовать кувалду при огранке алмазов, равно как и пинцет на каменоломне.
Послесловие

Вопросы, подобные часто задаваемому «пользоваться или не пользоваться lossy -кодерами?» не дают спокойно спать многим, как аудио любителям, так и профессионалам. Какой lossy -кодер использовать, пользоваться ли вообще lossy -кодерами или применять исключительно беспотерьное сжатие, с какими параметрами проводить оцифровку сигнала – эт о и многое другое рано или подно спрашивает себя каждый, кто в той или иной форме сталкивается со звукообработкой или звукозаписью. Ни один из подобных вопросов не имеет однозначного ответа, все диктуется соображениями целесообразности и применимости. Панацеи не существует, и поэтому каждый конкретный практический случай имеет свои строго индивидуальные решения.

Вообще, вопросы целесообразности и применимости технологий цифрового звука и методов его обработки являются тонкими и сложными. Даже тема использования цифрового звука как такового до сих пор является камнем преткновения, и каждый на этот счет имеет свое собственное мнение. Так, например, многие аудиофилы считают, что цифровая форма является неудачным способом представления звуковых сигналов и предпочитают аналоговую аудио аппаратуру цифровой. С другой стороны, даже лампочку Эдисона многие его современники высмеивали и относились к изобретению скептично, что уж говорить про столь сложную область, какой является область цифровых сигналов.

Пожалуй, важнее всего понять, что имеет свои положительные и отрицательные стороны, и эти стороны могут меняться местами в зависимости от постановки каждой конкретной задачи. На сегодня совершенно очевидно лишь одно – цифровые технологии находятся лишь в начале своего пути, и нам еще только предстоит понять, что значит их повсеместное внедрение совместно с миниатюризацией, наращиванием вычислительных мощностей и объемов памяти. Совершенно ясно, что цифровые технологии очень скоро завоюют новые, еще не захваченные рубежи, и что от повсеместного применения этих технологий никуда не деться. Опасаться этого процесса можно, но сопротивляться ему бесполезно. Что же касается цифрового звука – части цифровой революции – то здесь все только начинается. Что в этой области уже сегодня получил потребитель? Очень компактные цифровые аудио проигрыватели, высококачественную мобильную и Интернет-телефонию, домашние кинотеатры с объемным звучанием. А, ведь это далеко не все из того, что может быть сделано. Технологии распознавание звука и, в частности, речи до сих пор находятся только в начале своего пути; технологии синтеза звука также еще далеко не на вершине своих возможностей. Только представьте себе, как развитие этих технологий может повлиять на окружающий нас мир! Все это лишь укрепляет мысли о том, что путь не близок, и что самое интересное нам еще только предстоит увидеть.



Примечания



В этом смысле можно провести аналогию с распространением света. Скорость распространения света также не зависит от частоты. В противном случае, если бы, например, красный свет двигался быстрее синего, то вспышка белого света выглядела бы сначала красной, затем белой и, наконец, синей.

С дифракцией звука мы сталкиваемся в повседневной жизни постоянно. Если бы дифракции звука не существовало, то мы были бы совершенно неспособными слышать, например, музыку, звучащую за углом дома, а также разговор за закрытой дверью.

Так, например, звук камертона длится достаточно продолжительное время, однако является тихим. В то же время, звук камертона, установленного на резонаторный ящик, в виду появления резонанса оказывается намного более громким, однако гораздо менее продолжительным.



Децибел - это относительная логарифмическая величина (десятая часть Белла), используемая во множестве научных дисциплин ( - десятичный логарифм отношения некоторой величины X к ее эталонному значению Z - называется Беллом, в честь изобретателя телефона А. Белла). Эта величина численно характеризует отношение двух других физических величин. Таким образом децибел является инструментом сравнения. При измерении (оценке) амплитуды, в качестве эталонного значения Z выбирают амплитуду неслышимого сигнала.

В отношении понятия «тон» удобно применять две его производные: понятие «частота тона» - как физическая характеристика раздражителя слуха и понятие «высота тона» - как характеристика ощущения. Иначе говоря, высота тона - это субъективная характеристика ощущения физической частоты тона.

Гармоникой или обертоном называется частотная составляющая, кратная частоте основного тона. Гармоники нумеруются начиная с основного тона, а обертоны – с первой кратной составляющей.

«Стереофония» – донесение до слушателя звучания, несущего информацию об источниках звука, расположенных на плоскости. Слово «стереофония» происходит от греческого «stereos» - « объемный», «пространственный».

Позволим себе здесь это допущение, поскольку в любом случае пределы колебаний амплитуды можно привести к описанным. Например, в случае если колебания напряжения в электрической цепи находятся в пределах от 0 до 5 вольт, то этот диапазон колебаний может быть приведен к нужному нам диапазону от -1 до 1 путем деления каждого измеренного значения амплитуды на 2.5 и вычитания 1.

Существует два общепринятых псевдологарифмических закона, используемых при построении неоднородного квантователя. Их обозначают как A - law и - law .

Кодирование информации – представление информации в определенной системе кодовых символов и их структур. Шифрование, а также уплотнение (сжатие) информации являются частными случаями кодирования. Кодер (англ. « coder») – это программный или аппаратный блок, предназначенный для кодирования данных. Кодек (от англ. “ codec” – “ CODer / DEcoder”) - программный или аппаратный блок, предназначенный для кодирования и декодирования данных.

В основе механизмов работы таких методов сжатия лежат так называемые «жадные» алгоритмы, основанные на статистическом анализе данных (наиболее известные алгоритмы: Huffman, PPM). Большинство этих алгоритмов создано еще 30-40 лет назад, сегодня они лишь модифицируются и оптимизируются.

Битрейт – количество данных в единицу времени звучания. Например, битрейт для формата [ИКМ / 44.1 КГц / 16 бит / стерео] составляет 44100 * 16 * 2 = ~1411 Кбит/с.

Источник: http://next-sound.ru/articles/a82.zvuk_i_cifrovye_tehnologii.htm
  
#9 | Анатолий »» | 05.08.2016 18:40
  
0
Вот эта гадость изображенная на графике:


И есть оцифровка звука.

если вы присмотритесь то увидите ступеньки.
1 - 0, 1 - 0.
есть сигнал, нет сигнала , есть сигнал , нет сигнала.

Ви видите что гладкий график стал ступенчатым.

если эти ступеньки маленькие, то человеческое ухо не воспринимает разницы., если же клеточки крупные - то сразу будет серьезное искажение.звука.

Но как бы мелки не были квадратики, они все равно в цифровом звуке будут присутствовать, и если человеческое ухо не воспринимает разницы, то все равно искажение будет, и это улавливается видимо уже мозгом..
Цифровой звук становиться мертвым, искусственным.
Качество будет отличное. Уберутся другие искажения, которые возникают при аналоговой обработки звука, но вот эта ступенчатость будет давать свои результаты искажения.

Аналоговый звук пусть имеет помехи, но он будет более живым, более естественным. Дигитальный же - пусть и более качественный, но мертвый.

Избежать это невозможно. Можно только уменьшить эти скачки (да- нет 1 - 0) Но как бы они не были уменьшены, они останутся.

А теперь представьте себе что в звуке присуствуют множество обертонов. Это то богадство звука, которая присуща всему живому, органическорму звуку, будь то человеческий голос, или фортепиано. Обертоны (если по простому объяснять) это дополнительыне колебания звуковой волы, потому что сигнал (звук ) имеет определенную частоту, но обертоны придают этому звуку с определенной частотой множество оттенков. Поэтому мы можем отличить человеческие голоса, или звуки рояля фирмы Мюльбах, от пиаонино Беларусь.

Красота звука зависит от обертонов! Это придает звучанию тембр.
Но ведь и все обертоны будут записываться тоже вот в такой ступенчатой последовательности.
Главная частота - она простая, а вот обертоны имеют очень сложный рисунок, и при этом ступенчатость будет вмешиваться и в прочитывание (воспроизведение) и обертонов.

Разница огромная становиться!




Вот на рисунке показаны две кривиые в графике.
Красным цветом - это один из обертонов инструмента Варган, а желтым - это основной звук. Варгана.

Причем это очень примитивное изображение, а вот представьте себе все это вот с этими квадратиками.
Утеря тембра звука будет существенной.
Вот почему когда мы слышим искусственный голос, то чувствуем разницу, что это голос НЕ ЖИВОЙ, это РОБОТИЗИРОВАННЫЙ ГОЛОС!
  
#10 | Анатолий »» | 10.08.2016 22:48
  
0
Довольно интересный вокал получается у программы Zero-G VOCALOID2 Prima

Это тот же VOCALOID, но семплы добавлены другие, поэтому и результаты другие.


















Вторая версия программы синтеза вокала Yamaha Vocaloid использует новое аудиоядро, позволяющее добиться более естественного результата. До 16 треков можно использовать одновременно. Поддерживаются потрековый рендеринг (сохранение в формате WAV), предварительное прослушивание, импорт стандартных MIDI-файлов. Изменен интерфейс редактора, упрощено управление атакой и вибрато, трек управления тембром сделан прозрачным. Программу можно использовать автономно (поддерживается формат ReWire) или как плагин формата VSTi. В варианте VSTi возможно игра с клавиатуры в реальном времени (при условии предварительного ввода текста), полифония четыре голоса. Как и первая версия, Vocaloid 2 не будет продаваться отдельно - только в комплекте с библиотеками исполнителей. Перед вами одна из таких библиотек - Vocaloid Prima, выпущенная компанией Zero-G. Улучшенное звучание, основанное на переработанных алгоритмах и на тесной работе с профессиональной певицей сопрано.

PRIMA - это виртуальный женский вокал, смоделированный на основе голоса профессиональной певицы сопрано.

Как только PRIMA будет установлена на ваш компьютер, она позволит вам создавать синтезированное пение - беспрецедентного качества и безукоризненно реалистичное.

Prima каждый раз будет брать самые высокие ноты с великолепной точностью.

В любом режиме - будь то высокий ведущий вокал, напевы или бэк-вокал, Prima сможет спеть любые слова английского языка (да и других языков, если немного потрудиться).

Prima также очень хорошо подойдет, если вы любите смелые эксперименты, так как ее голос можно легко изменять и модифицировать разными способами.

Помимо возможности петь любые слова или заданные вами комбинации слогов либо фонем, PRIMA умеет растягивать любой гласный (или звонкий согласный) на нужное вам количество нот, с прекрасным легато. Вы можете выбирать из нескольких различных естественных типов вибрато и перетащить выбранный вами тип к любой ноте или нотам, и далее управлять положением во времени и количеством вибрато.

И это только начало - у вас есть возможность управлять всеми указанными ниже параметрами, которые Вы можете задать для любой части вашего музыкального произведения:

- Изменение слогов/фонем
- Установки времени для каждой ноты (точная позиция и длительность)
- Вибрато (можно изменить его тип/положение/количество/частоту).
- Объем
- Подъем.
- Crescendo и diminuendo
- Изменение высоты (количество, и изменение во времени).
- Хроматическая гамма (портаменто).
- Резонанс (Частота / диапазон частот / амплитуда)
- Гармоника.
- Шум.
- Яркость
- Четкость.
- Гендерный фактор.
  
#11 | Анатолий »» | 11.08.2016 02:54
  
0
Насколько серьезно работает программа Zero-G VOCALOID2 Prima можно вот на этом звуковом ролике.



Zero-G VOCALOID2 Prima

Как вы слышите этой программе не чужда даже высокая классика.
Скажите честно, если бы вы не знали что это голос не живой, а синтезированный, вы бы пожалуй не отличили бы от живого голоса?.
Конечно есть разница.
Но ведь это только начало...
Что будет дальше?
  
#12 | Анатолий »» | 14.08.2016 04:04
  
0
Уж коли зашла речь о виртуальных синтезаторах (а программы, которые синтезируют голос - тоже относятся к виртуальным синтезаторам)
Я все же еще раз посмею утверждать, что рано или поздно кибернетика позволит полностью работать с виртуальными синтезаторами. Это не значит что не будет синтезаторов в металле (как это говорят) Нет конечно.! Но вот перспективы у виртуальных синтезаторов огромные.

Вот вам пример.
Это за короткое время я установил на свой компьютер.
Это все виртуальные синтезаторы, которая объединяет одна программа для работы с виртуальными синтезаторами.



А теперь скажите. Возможно ли кому то иметь такое количество синтезаторов?
Ведь аналоги не виртуальные - если вот такое разнообразие - стоят пожалуй несколько миллионов евро!!!
Да и помещение им нужно не маленькое.
А тут все умещается в маленьком не таком уж скоростном компьютере.
Это явное преимущество!
Потом надо учитывать, что все эти синтезаторы должны иметь кабели соединения и микшеры, так это же целая студия, причем огромная!
А тут все в небольшом не самом современном компьютере.
Да не надо крутить ручками настройки. Это делается мышкой.

Надо иметь компьютер. программы, и сносный МИДИ клавишный инструмент (всего один, и вовсе не обязательно что он синтезатор, а просто МИДИ-Клавиатура)
И ВСЕ!

А какие еще новые виртуальные новшества приходят - так вообще.
Мне за этими новшествами не угнаться. Но и этого мне достаточно.
Все это работает на Виндовсе XP (устаревшая модель!)

Да есть преимущества. но... Стоит поговорить и о серьезных минусах. И я еще о них поговорю. Я лишь немного затронул тему дигитального звука. Но есть и другие проблемы.
  
#13 | Анатолий »» | 14.08.2016 12:06
  
0
Все эти монстрики уходят в далекое прошлое.
Прошедший век.
Жан Мищель Жар показывает свои инструменты. Целое состояние, большая студия.



Все это сейчас умещается в четыре виртуальных синтезатора на компьютере с объемом не более 500 мегабайтов.для размещения файлов программы.
Было бы наивно не сравнивать.
И все же. Так же как отличаются натуральыне не электронные инстументы , так же есть различие в работе с виртуальными синтезаторами.
Любой инструмент исполнителю и композитору надо ЧУВСТВОВАТЬ, происходит некое единенение исполнителя и инструмента. Они сливаются в единое целое. В виртуальных синтезаторах это чрезвычайно сложно (если вообще возможно) Нельзя уловить этого единения. Каждый сам по себе.

Электронная музыка все меньше соприкасается с душой. Это музыка для ног. Она действует может на мозг, на печень, и даже селезенку, но вот душа.... Тут уже неприступная крепость.
Жан Мишель Жар сумел в своем творчестве все же соприкоснуться с душой, но... только соприкоснуться. Все равно , его музыка отстраненная, она сама по себе... Она заинтересовывает, возбуждает интерес, но надолго ли?
От электронной музыки быстро начинаешь уставать. Она изматывает нервы не соприкасаясь с душой. Она может вывернуть наизнанку все твое нутро, но душа останется неприкосновенной..
Впрочем Хеви Металл, железный рок ушел в дьяволизм. Эта холодная электроника начала проникать в душу с черного входа. Она возбуждает мрачный настрой. И если попса просто уводит в легкий наркотик, то тут уже намного серьезней воздейсвие.
не является ли противоречием мои слова, в том что электронная музыка не затрагивает душу, и тут же что душа напполняеться чем то черным, нехорошим? Это противоречие - парадокс. Электронная музыка нашла пути с другой стороны в душу. не сверху а снизу. Из преисподни.

Живая флейта звучит божественно. Звуки льются в душу сверху с небес. А тут идет подползание снизу. Это уже флейта Дъявола.
У меня даже есть такое произведение, так и называется - Флейта Дьявола.

Это не значит что нельзя найти в электронной музыке и что-то внеземное, но не снизу. Но все равно, это музыка больше Космоса, чем Бога.

Вибрация Космоса, шумы, трепет Галактик - да это можно отразить в синтезаторной музыке, но электроника далека от Бога.
Компьютеризация, кибернетика - это вообще новый шаг человечества. И как всякое новое - имеет положительные стороны, но сразу и той же мощи отрицательные.
И это ловушка для душ человеческих. Такая незаметная ловушка.
И разве не пророчески звучало: "Кто сегодня играет джаз - завтра Родину продаст"
Джазовая музыка - ну что такого? А ведь слова оказались пророческими.
Битлз породили МОНСТРА! Который воплотился в ансамбле Кисс. Кто бы подумал что "цветы жизни" дадут такие ягодки?

Но относится ли все это к кибернетике? А вот как ни странно очень даже относиться! Кибернетики, программисты даже и не задумываются какого монстра они лепят. Важны ПОСЛЕДСТВИЯ., важны эти ягодки.

Музыка - это одно из сильнейших воздействий на умы и души людей. Музыка уводила людей в бой, на смерть, поднимала на высоты и опускала вниз в Ад. И проникновения неизбежны. .
Кибирнетика дала новый шаг человеческу, но куда ведут эти шаги? Куда? В преисподню?
  
#14 | Анатолий »» | 16.08.2016 14:22
  
0
Установил программу Zero-G VOCALOID2 Prima
Программа очень тяжелая для работы.
В особенности трудно транскрипция. Все же программа японская и она мало что смыслит в английском языке, к тому же русский вообще не воспринимает.
Но мне не это нужно было, мне нужен был вокал с примитивными словами, или просто певучее "А...а....а...а...а"
За три часа работы добился уже результатов.
Самое интересное в программе то что там можно менять женский голос на разные совершенно тембры. От детского до глубокого клавиатурного классического голоса.
Причем мало слышится этот "электронный голос", а больше живой, хотя от электронного все равно не избавится. призвуки конечно есть.
А потом живой голос поет с разнообразнейшими оттенками, Тут оттенков конечно нет. Сравниться с жэивым голосом не может.
Учитывая сложность транскрипции, тут сложностей хоть отбавляй.

Но все равно, то что создали такую программу - это конечно большой шаг вперед.


Но все же я хотел поговорить и о другом.
Да, кибернетика дала возможность создавать новые инструменты, новые звучания, новые возможности.
Сейчас любой пацан может сочинять музыку.
Конечно это не будем Бах, или Моцарт, но все же.
количество композиторов уже давно зашкаливает за нормальные пределы, а тут широкие возможности любому сочинять музыку.
Плохо это или хорошо?
И так и так. Фифти - фифти!

Ну смотрите. С одной стороны расширять возможности любого человека, приобщать его к искусству - это прекрасно! Но дело в том что уровень падает серьезно. Количество не порождает качество.
Тот примитив который слышен за последние годы просто зашкаливает. Уровень падает. Причем общий уровень культуры так же падает.
"Музыка для ног" - как ее метко назвали, стала наркотиком среди молодежи.
Вы часто смотрите как молодые люди синят в наушниках и не замечают окружающее. У них в голове вот эта примитивная музыка.. Это уже наркотик. Без нее они не могут обойтись, им нужно постоянно подпитывать себя ритмами.
У меня была тема про влияние низких частот на организм человека. Низкие частоты разрушают организм, приводит его в состояние странное, болезненное, портит даже организм.
Это в конце концов опасно. Мы не видим опасности, хотя она на поверхности. Не видим потому что мало изучено как действует звук на весь организм и на психику человека. есть разрозненные наработки в этом направлении, есть исследования, но соединить их воедино - еще никто не соединил. Это пока Terra Incognitа с маленькими островками знания.

Сейчас еще прибавляется и стерео-звук. А это уже может быть влияние и Бинауральных ритмов (о них тоже есть тема на этом сайте) Ведь композиторы могут незаметно даже для слушателей добавлять его в композиции, создавая фон, котоырй не будет прослушиваться, но будет серьезно влиять на психику.

Так что проблемы прибавляются.
  
#15 | Анатолий »» | 17.08.2016 17:49
  
0
Вот смотрите.
Поставил еще всего один виртуальный синтезатор. Всего один!!!
Но он дает звучание вот скольких синтезаторов!!!

Zero-G - Nostalgia VST


Описание: Ностальгия - это около 1,3 Gb звуков, разделенных на более чем 1300 патчей. Это 4 декады истории электронных музыкальных клавишных инструментов и драм-машин.
В составе :
INSTRUMENTS & SYNTHS: ARP 2600, ARP String Ensemble, ARP Pro-Soloist, ARP Odyssey, Casio VL-Tone, Casio CZ101, Casio PT-30, Crumar Performer, Chamberlin, Chapman Stick, Clavinet D6, Delicia Medlodica , Dubreq Stylophone, Ensoniq SQ80, Ensoniq SQ-R, Elektronika EM-25, Elka Synthex, Eminent 310, Emulator 2, Fairlight CMI IIx, Farfisa organ, Farfisa Soundmaker, Fender Rhodes, Gem DEX20, Gem S2, Hammond B/C3, Hammond M102, Hohner Pianet, Jen bass Pedals, Kawai K5000, Korg Prophecy, Korg Trident, Korg Wavestation, Korg M1, Korg MS20, Korg Polysix, Korg X5DR, Mellotron, MemoryMoog, MiniMoog, Moog Taurus Mk1, Moog Opus, Moog Voyager, MultiVox MX202, NanoBass, Novation SuperNova II, Modulus Monowave, Novation K-Station, Oberheim Matrix 12, Oberheim Matrix 1000, PolyMoog, Prophet 5, PPG Wave 2.2, RMIElectrapiano, S+S synths, System 100, TB303, VP300 Vocoder Plus, Alpha Juno 2, D50, Jupiter 6, MKS50, RS202, SH101, Sci-Fi, Suzuki SX-500, TI Speak & Spell, Wurlitzer EP200, Wurlitzer EP203, Vako Orchestron, Vox Continental, Yamaha CP70, Yamaha DX7, Yamaha CS1x, Yamaha CS5, Yamaha CS80, Yamaha CVS10, Yamaha SY2, Yamaha SY85, Yamaha TX81Z.
BEATBOXES/DRUM SYNTHS: Ace Tone 'Rhythm Ace', Akai XE8, Akai XR10, Alesis HR16, Alesis HR16b, Alesis SR16, Boss DR55, Boss DR220, Fricke MFB512, Kawai R5/R50E, Korg DDD1, Korg DDM110/DDM220, Linn LM-1, Linn 9000, Mattel Synsonics, MXR 185, Sequential Drum Traks, Sequential Tom, CR78, TR606, TR707, TR727, TR808, TR909, Simmons SDSV, Yamaha RX11, Casio RZ1, Emu Drumulator, Keytek MDP40, Korg 'Mini Pops', Linn Drum Mk2, Oberheim DX, TD7 V-drums, TR505, Sakata DPM48, Sound master SR88, Sound Master Stix, Soundtech Rhythm 12, Pearl DRX-1, Pearl Syncussion, Yamaha DD10


Конечно не все звуки этих синтезаторов, но все же самые отобранные.
Можно ли купить все эти синтезаторы? Конечно нет!
А это всего лишь в одной программе умещается!.
Дам ссылку, если кто заинтересуется.

https://rutracker.org/forum/viewtopic.php?t=424032

На этом форуме много чего можно найти интересного. (Так, на всякий случай)

Но.
Дает ли это качественный результат?
Сомнительно.
Прекрасный инструмент - рояль фирмы Стейнвейн не дает возможность быть Рахманиновым.

Да, в этих синтезаторах есть прекрасные звучания. Но даст ли это возможность?

И главное на что будет направлено творчество. - НА ДОБРО ИЛИ НА ЗЛО.
Добавлять комментарии могут только
зарегистрированные пользователи!
 
Имя или номер: Пароль:
Регистрация » Забыли пароль?
 
© decoder.ru 2003 - 2017, создание портала - Vinchi Group & MySites