Кодирование речевой информации в GSM PDF Print E-mail
Written by Administrator   
Tuesday, 08 May 2012 18:06

GSM является цифровой системой, и, следовательно, аналоговая речь, поступающая в систему, должна быть оцифрована.

Кодер речи является первым элементом собственно цифрового участка передающего тракта АЦП. Основная задача кодера – предельно возможное сжатие сигнала речи, представленного в цифровой форме, т.е. предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи; задача декодера – восстановление обычного цифрового сигнала речи (с присущей ему естественной избыточностью) по принятому кодированному сигналу. Сочетание кодера и декодера называют кодеком.

Кодирование источника сигнала, или кодирование параметров сигнала, первоначально основывался на данных о механизмах речеобразования, т.е. этот метод использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем, или вокодеров (кодер голоса или кодер речи). Ранние вокодеры позволяли получать весьма низкую скорость передачи информации, но при характерном «синтетическом» качестве речи на выходе. Поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов, не находя широкого практического применения.

Ситуация существенно изменилась с появлением метода линейного предсказания, предложенного в 1960-х годах и получившего мощное развитие в 1980-х годах на основе достижений микроэлектроники.

В настоящее время в системах подвижной связи получили распространение вокодерные методы на основе метода линейного предсказания. Суть кодирования речи на основе метода линейного предсказания (Linear Predictive Coding – LРС) заключается в том, что по линии связи передаются не параметры речевого сигнала, а параметры некоторого фильтра, в определенном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания. Задача кодирования на передающем конце линии связи заключается в оценке параметров фильтра и параметров сигнала возбуждения, а задача декодирования на приемном конце – в пропускании сигнала возбуждения через фильтр, на выходе которого получается восстановленный сигнал речи.

Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находятся из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента.

Таким образом, процедура кодирования речи в методе линейного предсказания сводится к следующему:

· оцифрованный сигнал речи нарезается на сегменты длительностью 20 мс;

· для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр линейного предсказания с параметрами, полученными из оценки для данного сегмента;

· параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения.

Во-первых, линейное предсказания – кратковременное предсказание (STP – Short-Term Prediction) не обеспечивает достаточной степени устранения избыточности речи. Поэтому в дополнение к кратковременному предсказанию используется еще долговременное предсказание (LTP – Long-Term Prediction), в значительной мере устраняющее остаточную избыточность и приближающее остаток предсказания по своим статистическим характеристикам к белому шуму.



В стандарте GSM используется метод RPE-LTP (Regular Pulse Excited Long Term Predictor – линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем).



Блок предварительной обработки кодера осуществляет:

· предыскажение входного сигнала при помощи цифрового фильтра, подчеркивающего верхние частоты;

· нарезание сигнала на сегменты по 160 выборок (20 мс);

· взвешивание каждого из сегментов окном Хэмминга («косинус на пьедестале» – амплитуда сигнала плавно спадает от центра окна к краям).

Далее для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания – 8 коэффициентов частичной (порядок предсказания М = 8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей, причем для функции логарифма используется кусочно-линейная аппроксимация.

Сигнал с выхода блока предварительной обработки фильтруется решетчатым фильтром-анализатором кратковременного линейного предсказания и по его выходному сигналу (остатку предсказания) оцениваются параметры долговременного предсказания: коэффициент предсказания и задержка. При этом 160-выборочный сегмент остатка кратковременного предсказания разделяется на 4 подсегмента по 40 выборок в каждом.

В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой, и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, т.е. кодируется номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речи для одного 20-миллисекундного сегмента речи включает параметры:

· фильтра кратковременного линейного предсказания;

· фильтра долговременного линейного предсказания;

· сигнала возбуждени.

Число битов, отводимых на кодирование передаваемых параметров, для одного 20-миллисекундного сегмента речи передается 260 бит информации, т.е. рассмотренный речевой кодер осуществляет сжатие информации по отношению к несжатому оцифрованному речевому сигналу (20 миллисекундному сегменту соответствует 160 восьмиразрядных отсчетов или 1280 битов) почти в 5 раз (1280: 260 = 4,92). Перед выдачей в канал связи выходная информация кодера речи также подвергается дополнительно канальному кодированию.

Речь разделяется на 20 миллисекундные фрагменты, каждый из которых кодируется в 260 битов, давая суммарную скорость передачи 13 kbps.

Декодер. Последовательность выполняемых им функций иллюстрируется на рис. 3.4. Блок формирования сигнала возбуждения, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени. Сформированный таким образом сигнал возбуждения фильтруется фильтром-синтезатором долговременного предсказания, на выходе которого получается восстановленный остаток предсказания фильтра-анализатора кратковременного предсказания.

Последний фильтруется решетчатым фильтром-синтезатором кратковременного предсказания, причем параметры фильтра предварительно преобразуются из логарифмических отношений площадей, в коэффициенты частичной корреляции. Выходной сигнал фильтра-синтезатора кратковременного предсказания фильтруется (в блоке постфильтрации) цифровым фильтром, восстанавливающим амплитудные соотношения частотных составляющих сигнала речи, т.е. компенсирующим предыскажение, внесенное входным фильтром блока предварительной обработки кодера. Сигнал на выходе постфильтра является восс новленным цифровым сигналом речи.