Линейное предсказание речи. 1980 г. DjVu

Маркел Дж. Д., Грэй А. Х.
Перевод с английского
Под редакцией Ю. Н. Прохорова и В. С. Звездина

ЛИНЕЙНОЕ ПРЕДСКАЗАНИЕ РЕЧИ

* 1980 *

DjVu

ФPAГMEHT КНИГИ (...) 11.1. ИДЕНТИФИКАЦИЯ И ВЕРИФИКАЦИЯ ДИКТОРОВ
Параметры линейного предсказания вычисляются просто и эффективно, и, как показали эксперименты, синтезируемый по ним речевой сигнал в значительной степени сохраняет натуральность исходной речи. Эти факторы побудили к исследованиям применения линейного предсказания для идентификации и верификации дикторов. Задача идентификации состоит в том, чтобы определить принадлежность образца речи неизвестного человека к одному из наборов речевых образцов заранее известных дикторов. Целью верификации дикторов является установление подлинности личности диктора по его речи. В силу бинарного характера классификации при верификации возникает более простая задача, которая может быть решена с большой надежностью на основе сравнительного' анализа одиночных тестовых выражений [33, 78].
Пфейфер [126] исследовал целесообразность использования коэффициентов фильтра, коэффициентов отражения и спектральной характеристики обратного фильтра для идентификации дикторов на основе невзвешенной меры эвклидова расстояния (...)
Здесь г является /-м эталонным вектором, a t—тестовым вектором. Размерность векторов равна порядку фильтра М для каждого набора коэффициентов, за исключением спектральной характеристики фильтра, размерность которой определяется размерностью БПФ, используемого для определения спектра.
Аналоговые записи отфильтровывались фильтром нижних частот до частоты 3,25 кГц и затем подвергались дискретизации. Сегменты, соответствующие определенному звуку, устанавливались вручную, а затем проводился анализ центральной части звука. Применялся автокорреляционный метод с параметрами: fs = 6,5 кГц, N — = 128, М = 10. Перед анализом использовались предыскажение и взвешивание данных с окном Хэмминга. К коэффициентам фильтра применялось БПФ для получения 256 равноотстоящих значений функции In | А [ехр (/0) ] |.
Эталоны включали десять образцов каждого звука для различных дикторов. Мера расстояния вычислялась в соответствии с (11.1). При определении диктора выносилось однозначное решение. По результатам анализа трех различных звуков — /г/, /п/ и /э/ — была достигнута 100%-ная правильная идентификация для десяти дикторов мужчин.
Использование коэффициентов фильтра или коэффициентов отражения в качестве компонент указанных векторов приводит к значительно худшим результатам (процент распознавания в лучшем случае снижается до 80%) несмотря на то, что в этих наборах параметров содержится та же самая информация. Причина состоит, вероятно, в том, что мера расстояния, определяемая выражением (11.1), не является адекватным критерием для этих параметров. Атал [13] исследовал свойства взвешенной меры эвклидового расстояния для задач идентификации и верификации дикторов.
Он рассмотрел ряд наборов параметров, включая коэффициенты фильтра, импульсную реакцию фильтра с характеристикой \jA(z), автокорреляционную функцию, функцию площадей акустической трубы, кепстральные коэффициенты обратноге фильтра. Все эти наборы параметров однозначно, но нелинейным образом, связаны друг с другом, как показано в гл. 10. Применяемая мера расстояния представляла собой квадратичную взвешенную меру вида (...)
Эталонные векторы находились путем усреднения всех измеренных векторов для каждого отдельного диктора. Если х?-; представляет собой i-e высказывания /-го диктора, то (...)
Мера (11.2) обладает следующим важным свойством: она неизменна при несингулярных (обратимых) линейных преобразованиях векторов измерения. Этот результат можно получить из принципа максимального правдоподобия, если предполагать, что статистика наблюдаемых векторов — гауссова.
Исходные данные из шести повторений выражения May we all learn a yellow lion roar десятью дикторами служили в этом эксперименте в качестве опорных. Пять повторений каждым диктором этой фразы использовались для получения г,-, а шестое--в качестве контрольного. Каждое выражение было разделено на 40 отрезков равной длины (около 50 мс каждый) с целью получения примерно одинаковой длительности выражений. Каждый временной отрезок (сегмент) имел, таким образом, различный набор эталонных векторов и свою ковариационную матрицу W.
Анализ проводился с помощью ковариационного метода с параметрами: fs= 10 кГц, М= 12. На рис. 11.1 показана точность идентификации каждого отдельного временного сегмента при различном выборе наборов параметров. Усреднение по сегментам показывает, что кепстральные коэффициенты обеспечивают самую высокую точность идентификации. Поскольку кепстр линейно связан с логарифмической спектральной характеристикой обратного фильтра, результаты Атала согласуются с результатами Пфен-фера.
Если усреднение проводить для отдельного сегмента, то точность идентификации для всех наборов параметров возрастает. Атал получил 80%-ную точность для сегментов длительностью 0,1 с и 98%-ную — для сегментов, длительность которых превышает 0,5 с.
11.2. РАСПОЗНАВАНИЕ ИЗОЛИРОВАННЫХ СЛОВ
Итакура в [68] исследовал целесообразность использования логарифма отношения правдоподобия, построенного на основе энергии сигнала и ошибки, описанной в гл. 10, для задачи распознавания изолированных слов. При этом для каждого речевого сегмента минимальная энергия сигнала ошибки предсказания сравнивается с энергией сигнала на выходе опорного обратного фильтра, генерирующего сигнал ошибки.
Алгоритм распознавания изолированных слов был реализован на ЭВМ DDP-516. Он позволяет распознать 200 изолированных слов, произнесенных отдельными дикторами, речь которых была использована для обучения. Каждое произнесение вводилось в ЭВМ по стандартному телефонному каналу. Частота дискретизации была равна 6,667 кГц, а длительность каждого слова была в пределах фиксированного временного интервала 1,2 с. Анализ проводился с 200-точечным окном Хэмминга, перемещаемым с шагом в 400 отсчетов с помощью автокорреляционного метода.
Рис. 11.2. Структурная схема полной системы распознавания цифр [141] 282
Для коррекции возможных искажений спектра, вызванных различными физическими причинами, такими, как характеристики преобразователя и линии связи, психическое состояние человека, речевой сегмент большой длительности пропускается через обратный фильтр второго порядка для выравнивания спектра. Затем первые шесть коэффициентов автокорреляции предварительно обработанного речевого сигнала используются для определения опорного обратного фильтра. Эта система при реализации ее на ЭВМ DDP-516 работает не в реальном масштабе времени (время обработки примерно в 22 раза превышает реальное время) и обеспечивает коэффициент распознавания, равный 97,3%. Такие результаты были получены за трехнедельный период испытаний 200 тестовых записей определенных дикторов.
Самбур и Рабинер [141] разработали систему распознавания цифр, не зависящую от дикторов, в которой каждое сказанное слово — это цифра. Структурная схема такой системы представлена на рис. 11.2. В ней использовались методы линейного предсказания второго порядка [87], совместно с анализом чаcтоты пересечения нулевого уровня, энергии, а также полной квадратической ошибки а.
После определения конечных меток для выделения интервалов, содержащих по одному слову, речь анализируется каждые Ю мс с цепью получения требуемых параметров. Линейный фильтр-предсказатель второго порядка обычно настраивается па резонанс, расположенный между первой н второй формантами. Поскольку первая форманта изменяется в меньшем диапазоне частот, чем вторая, вычисленный полюс линейного предсказания стремится следовать движению второй форманты. Нормированная ошибка а2/а0 обычно минимальна для звонких согласных, больше для гласных и максимальна для фрикативных звуков.
Среди трех типов гласных звуков для «задних» гласных получается наименьшая нормированная ошибка, а для «передних» — наибольшая. На рис. 11.3 представлены графики нормированной ошибки, частоты пересечений нулевого уровня, частоты полюса и энергии сигнала для слова two. После участка, соответствующего фрикативному звуку /t/ и характеризующегося большой ошибкой и малой энергией, нормированная ошибка равномерно уменьшается. Основной подход к распознаванию в этом случае заключается пе в простом определении меры расстояния, а скорее в сочетании различных мер.
Каждый интервал сегментируется, а алгоритм, реализующий правило предварительного решения, относит каждое слово в некоторый класс цифр. Окончательное решение выносится на основании наличия пли отсутствия ключевых характеристик в выражении. Экспериментальная проверка этой системы проводилась в течение пяти недель для пяти мужчин и пяти женщин, причем каждая запись повторялась 10 раз для десяти цифр. При этом средняя частота ошибок составляла 2,7%.
11.3. АКУСТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ПАТОЛОГИИ ГОРТАНИ
Койк и Маркел [74] исследовали применимость линейного предсказания к определению патологии органов речи. Хотя предшествующие исследования методов спектрального _анализа показали, что спектр речевого сигнала изменяется в больших пределах [171, 172], но они в то же время навели па мысль о возможности использования акустического сигнала для обнаружения патологии гортани. Одна из задач, связанная с таким видом исследований, заключается в определении влияния изменений речевого тракта на изменение акустической волны, распространяющейся от голосовой щели к губам. Установить по спектру речи изменения, вызванные патологией гортани,— не простая задача.
Косвенным методом получения информации о колебательном поведении органов речи является обратная фильтрация волны от голосовой щели [111]. Этот подход к изучению речи больного имеет два серьезных недостатка. Во-первых, на его основе трудно выделить необходимые параметры модели, и, во-вторых, результирующая форма волны содержит информацию только о нижних частотах. При исследованиях сонограмм было обнаружено, что при патологии голос часто отклоняется от нормального в диапазоне верхних частот выше 1 кГц.
Сигнал ошибки или остаток на выходе обратного фильтра, полученный с помощью линейного предсказания, содержит, с другой стороны, все частотные компоненты с одинаковым весом в том смысле, что его спектр равномерный. На основании линейной модели речеобразования можно ожидать, что при нормальной 284
вокализованной речи для сигнала ошибки характерны отчетливые пики в начале каждого периода. При наличии патологии, которое выражается в неполном закрытии голосовой щели, предположение о возможности разделения характеристик речевого тракта и источника в линейной модели речеобразования становится неправильным. Следовательно, в зависимости от степени патологии можно было бы ожидать менее отчетливую картину периодических пиков. Для одиночного небольшого узелкового утолщения на поверхности голосовой связки следует ожидать небольшую разницу между нормальным голосом и патологическим. Но и в .серьезном случае потери подвижности голосовой связки, когда закрытие голосовой щели неполное, остаток не будет иметь периодический характер.
С помощью автокорреляционного метода были проанализированы записи десяти нормальных и десяти патологических голосов с целью определения характеристик остаточного сигнала. Части звука /а/ (ah) длительностью 100 мс анализировались при использовании 40-миллисекундных окон. Речевой сигнал и остаток, соответствующие нормальному мужскому голосу с основной частотой в 130 Гц, показаны на рис. 11.4а и б. Очевидно, что в этом случае форма акустического сигнала довольно регулярна и содержит приблизительно восемь периодов ОТ. При этом наблюдается лишь незначительная амплитудная модуляция пиков речевого сигнала.
Остаточный сигнал состоит из острых пиков в начале периодов ОТ, причем его поведение между пиками нерегулярно, а амплитуда относительно мала. Периодические колебания внутри периодов ОТ речевого сигнала эффективно удалены путем обратной фильтрации. Шумоподобное или нерегулярное поведение остаточного сигнала затухает таким образом, что во второй половине каждого его периода амплитуда во много раз меньше пиков в начале периодов ОТ. Для нормального голоса наиболее важной характеристикой сигнала остатка является большое отношение пикового значения сигнала (амплитуды пиков) к шуму (во второй половине периода ОТ).
Речевой сигнал и сигнал остатка больного с прогрессирующим случаем рака гортани представлены на рис. 11.5. Запись была сделана за несколько дней до полного поражения гортани. Анализ осциллограмм показывает, что в акустическом сигнале присутствует мало каких-либо периодических компонентов, хотя и можно заметить некоторое периодическое поведение, вызванное резонансами речевого тракта. Речь в этом случае крайне непонятна и груба. В сигнале остатка исчезают периодические компонеп-286
ты, так что он представляет собой шумоподобный непериодический процесс. Сравнение рис. 11.4 6 с 11.5 б позволяет говорить о высокой степени отличия между голосом нормального человека и голосом больного с повышенной патологией. Эти отличия очевидны как для акустических сигналов, так и для сигналов остатка. Большой интерес представляет определение ранних стадия развития патологии.
Пример патологического голоса, по которому, вероятно, не была бы обнаружена патология горла, если бы исследовался один акустический речевой сигнал, представлен на рис. 11.6а. Соответствующий ему остаток предсказания показан на рис. 11.6 6. Больной, как показала косвенная ларингоскопия, имел небольшое узелковое утолщение на левой голосовой связке и уменьшенную гиперемию окончаний голосовых связок. При восприятии голос по оценкам слушателей был слегка хриплым. Акустический сигнал строго периодичен, а периоды ОТ весьма схожи, причем к концу анализируемого интервала наблюдается небольшой спал амплитуды. Так как патология находится здесь в своей ранней стадии, то следует ожидать, что форма этого сигнала будет лежать между формами для нормального и патологического голосов. Это легко определить по сигналу остатка на рис. 11.6 6. В начале
каждого периода ОТ наблюдаются умеренные пики. Однако для некоторых из них характерны довольно большие колебания. Уровень шума сказывается здесь несколько выше, чем для нормальных голосов. В недавно проведенном Дэвисом [31] исследовании те же самые десять нормальных и десять патологических голосов были правильно классифицированы на основе изменений характеристик сигнала остатка с помощью ЭВМ, реализующей алгоритм распознавания образов. Хотя такие наблюдения и результаты носят предварительный характер, можно надеяться, что сигнал ошибки или остаток при анализе с помощью линейного предсказания действительно содержит ценную информацию о состоянии голосовых связок.
11.4. ОЦЕНКА ПОЛЮСОВ И НУЛЕЙ 1
В предыдущих главах было показано, что линейное предсказание представляет собой мощный инструмент для обработки речи, хотя анализ и ограничивался только полюсной моделью. Атал [14] предложил, что ощущаемая даже в настоящем случае разница между реальной и синтезированной речью, полученной на основе методов линейного предсказания, частично определяется ограничениями модели, имеющей только полюсы. Это наиболее заметно при анализе назальных звуков, таких, как /п/ в слове linear, когда теоретичски должны иметь место нули передаточной функции модели вследствие влияния носовой полости на образование звука [41, с. 77—80]. Кроме этого, коартикуляция при произнесении слов, подобных слову linear, приведет к тому, что соединения с назальным звуком будут также назализированы. Поэтому представляется целесообразным рассмотреть обобщение полюсной модели линейного предсказания с целью включения в нее и нулей. К сожалению, даже в простейших случаях прямая оценка по методу наименьших квадратов приводит к нелинейным уравнениям для коэффициентов числителя передаточной функции. Решения таких уровней обязательно будут итеративными н не могут гарантировать сходимость к глобальному минимуму.
Разработаны подходы, которые в принципе могут быть использованы для получения на основе линейной модели идеальной синтезированной речи. Об одном из них упоминалось при обсуждении метода Прони в гл. 2. Там предполагалось, что в пределах периода ОТ последовательность отсчетов речевого сигнала приближенно описывается г-преобразованием, определяемым выражением (2.25), которое можно переписать в следующем виде:
Полином A(z) был получен приближенно согласно tметоду Прони, который, как I было показано, эквивалентен коварйационному методу. Если точность вычислений достаточна, то Л (г) находится точно при условии, что последовательность отсчетов действительно имеет г-преобразование, определяемое выражением
(11.5). Если корни Л (г) обозначить через гь z2,...,zM, то последовательность х(п), соответствующая (11.5) и описываемая выражением (2.34), может быть записана в виде (...)
Для определения коэффициентов {ц4} или {pi}, минимизирующих сумму квадратов т](и), можно применить метод наименьших квадратов к (11.6) либо к (11.7). При этом в случае отсутствия ошибки получаются точные результаты, т. е. (11.5) оказывается точным, так как будет существовать набор коэффициентов, который сводит к нулю последовательность {тДп)}.
Этот подход вполне успешно был проверен на многих сегмен-
тах чистой синтезированной речи. Однако в случае реальной речи результаты оказывались бессмысленными. Оценки спектров содержали острые пики (изломы) и были совершенно неудовлетворительными. Та же самая процедура использовалась Шенксом [146] для расчета цифровых фильтров на основе их отклика на-единичный отсчет. Если последовательность исходных данных, речи или отклика на единичный отсчет действительно имеет г-преобразование, определяемое дробью (11.5), то числитель и знаменатель могут быть точно найдены на основе ковариационного метода обработки по меньшей мере 2М соседних отсчетов, взятых в любом месте такой последовательности.
Как было отмечено выше, метод Шенкса предполагает, что-анализ проводится синхронно с одним периодом ОТ. Действительно, что предположение является общим для всех методов анализа модели, содержащей полюсы и нули. При этом необходимо знать как входной, так и выходной сигналы идентифицируемой системы. Одни из способов удовлетворения этому требованию основывается на методе гомоморфной развертки (11.7). Оставляя только низкочастотную часть кепстра речевого сегмента, выделенного с помощью временного окна, можно оценить минимально-фазовую аппроксимацию импульсного отклика речевого тракта, включая источник возбуждения. По определению минимальнофазовый сигнал не содержит линейного фазового компонента и,
следовательно, соответствующим образом синхронизирован для анализа методом Шенкса или каким-либо другим методом.
Этот подход лежит в основе нового метода описания речевого сигнала с учетом полюсов и нулей, называемого гомоморфным предсказанием [120]. Оно обладает устойчивостью методов линейного предсказания, так как предполагает непосредственное применение для оценки как полюсов, так и нулей. Основная стратегия заключается в преобразовании нулей исходного сигнала в полюсы и в последующем использовании линейного предсказания для определения их местоположения. Один из способов выполнения этой обработки основывается на следующих наблюдениях [75]. Пусть х(п) означает сигнал, a X(z) —его z-преобразование.
Инвертируя спектр сигнала х(п), можно получить новый сигнал х~1(п), z-преобразование которого l/X(z). Полюсы функции 1/X(z) являются нулями X(z) и наоборот. Инверсия спектра сигнала может быть выполнена с помощью кепстра. Когда линейное предсказание применяется к х~1(п), корни получаемого при этом полинома являются оценками нулей X(z).
При анализе речи последовательность х(п) соответствует оценке импульсного отклика речевого тракта, получаемого от низкочастотной части кепстра речевого сигнала, подвергнутого обработке с применением временного окна. Эффективность такого метода повышается, если вначале применить линейное предсказание к х(п), а затем отфильтровать х~х (п) с помощью полученного фильтра. Такая процедура позволяет приближенно исключать нули из л~](п). Примеры спектров, иллюстрирующие этот метод, показаны на рис. 11.7. Речевой сегмент длительностью 54 мс соответствует звуку /т/ в предложении Say тото again. На рис.
11.7а изображен спектр предыскаженного речевого сигнала (горизонтальные линии проведены через 10 дБ). Каждая вертикальная линия соответствует 1 кГц.
На рис. 11.76 представлен спектр после кепстрального сглаживания, а на рис. 11.7 в — оценка полюсов спектра на основе линейного предсказания при использовании 12 коэффициентов. На рис. 11.7 г показан логарифм разности между спектрами рис.
11.76 и в как сглаженное спектральное представление поведения нулей. Отметим два основных резонанса, отличных от исходных и соответствующих нулям или провалам в спектре речи. Применяя линейное предсказание к сигналу, спектр которого представлен на рис. 11.7 г, получим спектр, показанный на рис. 11.7 6, на котором довольно ясно видны два основных резонанса, соответствующих нулям спектра речевого сигнала. Наконец, рис. 11.7 е иллюстрирует оценку как полюсов, так и нулей, полученную путем вычитания спектра, показанного на рис. 11.76, из спектра, показанного на рис. 11.7 в. Первый антирезонанс на рис. 11.7 6, расположенный вблизи 600 Гц, можно сравнить с результатами Фуджимуры [44], которые показали, что основные первые анти-резонансы звука /ш/ расположены в интервале между 750 и 1250 Гц.
4) Частота, кГц
Рис. 11.7. Иллюстрация гомоморфного предсказания при анализе полюсов и нулей [75]
Предварительная оценка рассмотренной процедуры подтверждает, что она значительно более надежна, чем метод Шенкса для оценки нулей на основе анализа реальной речи [75]. Однако, как и в любой неитеративной двухэтапной схеме, в которой полюсы и нули определяются раздельно, здесь имеются определенные трудности при разрешении близко расположенных пар полюсов и нулей.
Второй подход к оценке нулей с первоначальным преобразованием их в полюсы предложили Оппенгейм и Триболет [118]. Если имеется г-преобразование вида (11.5), то г-преобразование комплексного кепстра этой последовательности (...)
Таким образом, г-преобразование последовательности {пс(п)} имеет полюсы, являющиеся полюсами и нулями X(z). Знаменатель A(z)P(z) может быть оценен на основе линейного предсказания {пс(п)}. При использовании этого метода необходимо классифицировать каждый корень знаменателя A(z)P(z) как полюс или как нуль исходного сигнала. Один способ выполнения такой операции состоит в оценке А (г) путем анализа с помощью линейного предсказания {х(п)}. Оставшиеся после этого корни знаменателя A(z)P(z) определяются тогда как нули. Хотя такой подход и дает хорошие результаты на синтезированной речи, но он не позволяет с таким же успехом анализировать реальную речь. Макхоул [91] рассмотрел как итеративные, так и неитеративные подходы к оценке полюсов и нулей. Процедура, которую он называет методом обратного линейного предсказания, очень похожа (по конечным результатам) на метод Копека, если кепстральное сглаживание применяется до инверсии спектра.
11.5. НАПРАВЛЕНИЕ ДАЛЬНЕЙШИХ ИССЛЕДОВАНИЙ. ЗАКЛЮЧЕНИЕ
В книге сделана попытка глубокого изучения вопросов, связанных с линейным предсказанием речи, начиная с теории и кончая практической реализацией и областью применения. Показано, что линейное предсказание может быть использовано в качестве инструмента обработки акустических речевых сигналов практически для всех приложений. Рассмотрен ряд свойств метода линейного предсказания, его математические основы, включая преобразования параметров, рекурсивные методы проверки условий устойчивости, структуры синтезаторов речи, оценивание основной и формантной частот и спектральный анализ. Авторы надеются, что книга положит начало для будущих исследований многочисленных проблем в области изучения речи. Далее обсуждаются некоторые задачи и пути их решения.
Рассмотрение здесь подходы могут быть, естественно, использованы помимо линейного предсказывания и для выполнения линейной интерполяции. Помимо оценки отсчета исходного сигнала на основе обработки его прошлых значений можно использовать методы оценивания по критерию минимума среднеквадратической ошибки путем обработки прошедших и будущих значений1. Диб-берн [32] изучил эту проблему и показал, что полная квадратическая ошибка интерполяции сигнала в центре сегмента анализа примерно на порядок ниже по величине дисперсии ошибки предсказания. Такие подходы могут привести к более точным методам выделения ОТ путем интерполяции отсчетов и могут найти применение в изучении неминимально-фазовых характеристик речи, которое позволит не ограничиваться только полюсной моделью.
В последнее время значительный интерес был проявлен к обработке речи на основе фильтра Калмана [139] и родственных ему методов последовательного (рекуррентного) оценивания [20, 47,109, 183, 184, 188, 189]2. Уравнение линейного предсказания можно рассматривать как наиболее простой случай общей теории фильтров Калмана. Казалось бы, что если допустимо увеличение сложности, то можно получить некоторый выигрыш. К сожалению, до настоящего времени еще ни разу не была продемонстрирована ценность теории калмановской фильтрации для обработки реальной речи. Здесь существуют по меньшей мере две серьезные проблемы.
Во-первых, требуемые вычислительные ресурсы не только велики, но фактически для большинства случаев они колоссальны3. Во-вторых, использование априорных оценок предполагает наличие больших знаний о речевом сигнале. Теория фильтров Калмана успешно использовалась, например, при оценке и корректировке траекторий ракет, поскольку математическое описание их движения при отсутствии случайных возмущений известно от старта до финиша. Непосредственное применение этих методов для обработки речи предполагает, что априорно известно, о чем субъект будет говорить4. Несмотря на эти проблемы, теория фильтров Калмана и методы последовательного (рекуррентного) оценивания позволяют потенциально улучшить характеристики рассмотренных здесь методов линейного предсказания. Однако до реализации таких возможностей необходимо более полно понять присущие речевому сигналу свойства и их связь с теорией фильтрации Калмана.
1 Такая постановка задачи рассмотрена в [190]. (Прим. ред.)
2 См. предисловие к русскому изданию.
3 Прямое применение фильтра Калмана действительно требует большого числа вычислений. Но его использование при поочередном оценивании частных корреляций не только устраняет эту проблему, но и делает этот подход весьма удобным для реализации, так как при этом требуется выполнять всего пять — шесть операций на отсчет в каждом блоке устройства [190, 191]. Последние результаты авторов показывают, что такие алгоритмы могут быть реализованы в арифметике с фиксированной запятой и разрядностью 16—20 при частотах дискретизации 10—16 кГц. (Прим. ред.).
4 Это не точно. Требуется знать статистику того, о чем субъект будет говорить. (Прим. ред.).
Различные обобщения и их применения для оценки формы речевого тракта и формы волны голосовой щели рассматриваются во многих исследованиях. Кричтон и Феллайд в работах (29, 30] изучали применение модели акустической трубы в качестве средства для обучения глухих речи. Важное значение здесь придается дисплею. На рис. 11.8а показано, как этот прибор может использоваться глухим ребенком; на рис. 11.86 представлено увеличенное изображение, видимое ребенком. На экране показаны правильная
Рис. 11.8. Система для обучения глухих речи: а) пример использования прибора ребенком; б) увеличенное изображение экрана [29]
форма речевого тракта (желательно, чтобы она была сформирована нормальным ребенком, так как нормализация речевого тракта не является большой проблемой) и форма речевого тракта глухого ребенка. Последний должен попытаться так изменить форму кривой, чтобы она соответствовала эталонному образцу. Дискретные функции площади сглаживаются перед высвечиванием путем параболической интерполяции. Здесь необходимо нормировать форму речевого тракта по длине так, чтобы можно было производить сравнение для различных дикторов. Считается, что такая нормализация играет важную роль в проблемах распознавания речи [163]. Были сделаны попытки оценить длину речевого тракта непосредственно по акустическим сигналам [121, 160], но здесь еще необходимо преодолеть значительные трудности.
Одна из важных нерешенных проблем вычисления функции площадей речевого тракта заключается в обосновании модели, в которой предполагается, что речевой тракт представляет собой акусти-. ческую трубу без потерь, а все потери включены в импеданс источника у голосовой щели. Распределенные потери вследствие теплопроводности и вязкости [41, с. 23—25] не учитываются моделью, описанной в гл. 4. Коррекция сдвига частот вследствие потерь в речевом тракте дала бы более точную оценку функции площади. Также может оказаться необходимой более точная оценка ширины полос, что требует более точных знаний о соотношениях между физиологическим состоянием человека и его влиянием на акустический сигнал. С этой точки зрения изучение моделей синтеза речи, основанных на физиологических данных [58], может дать полезную информацию для представления речевого тракта в виде акустической трубы.
Методы оценивания формантных и основных частот всегда будут подвергаться тщательному исследованию, так как не существует прямых математических преобразований для определения этих основных параметров речи. Для получения большей точности требуется разработка дополняющих друг друга решений. Алгоритмы оценивания как формантных частот, так и основной частоты были представлены в гл. 7 и 8. Применяя их к реальному сигналу, можно прийти к выводу, что чем больше появляется новых методов решения, тем лучше могут быть результаты.
Разработка вокодерных систем также является областью, открывающей широкое поле деятельности для достижения потенциально возможных результатов. Здесь необходимо найти компромисс между стремлением к максимально возможному снижению скорости передачи и желанием располагать высоким качеством восприятия, натуральностью синтезированной речи. Рассмотренные здесь методы линейного предсказания привели к большим успехам. Авторы считают, что для дальнейшего развития этих успехов одновременно с исследованием математических аспектов задачи необходимо также и лучшее понимание скрытых физиологических механизмов, чтобы более точно и эффективно можно было описать сложную природу акустического речевого сигнала.

Маркел Дж. Д., Грэй А. Х. Перевод с английского Под редакцией Ю. Н. Прохорова и В. С. Звездина