А.И.Цыплихин, В.Н.Сорокин

Сегментация речи на кардинальные элементы

Для сегментации речевого сигнала выполнялся поиск границ квазистационарных и переходных процессов, основанный на корреляции между кратковременными спектрами равноотстоящих по времени участков сигнала. Распознавание кардинальных типов сегментов (гласноподобные, назальные, фрикативные глухие и звонкие, смычные глухие и звонкие) выполнялось в пространствах акустических параметров, установленных в результате исследования. Моделирование плотностей вероятности выборок осуществлялось разработанной модификацией EM-алгоритма. Анализ результатов сегментации производился на материале представительной речевой базы для нескольких типов телефонных трубок и микрофонов с ручной разметкой на артикуляторно-акустические сегменты. Средняя погрешность положения границ составила 4,52 мс, среднее число вставок было равно 1,26 на один сегмент разметки, а среднее число пропусков – 0,95%. В 96,3% случаев правильный тип сегмента по вероятности входил в первую двойку, в 85% был на первом месте.