Ingenium Núm. 5 - Otoño 2014

4. Descripción del algoritmo

Para el mecanismo para generar la voz del sistema

UrbvoxTTS

se implementó la metodología de síntesis por

concatenación ya que es el más usado debido a que ofrece mayor flexibilidad y una buena calidad de voz lo

cual resulta significativo para los fines específicos del proyecto.

El funcionamiento de la síntesis por concatenación se resume en las siguientes etapas:

Conversión texto-fonemas:

La primera parte de un sistema de síntesis de voz es obtener el texto y

generar la secuencia de fonemas que se requieren para generar la salida de voz como información acerca del

lugar en que cada una de las palabras se encuentra acentuada.

Se aplican reglas básicas para obtener los fonemas a partir de las letras. Para llevar a cabo este

proceso se va tomando palabra por palabra y si se encuentran símbolos o números estos deben ser eliminados,

reemplazados por pausas o reemplazados por palabras según se requiera.

Una vez que se ha obtenido la secuencia de fonemas a reproducir es necesario encontrar la sílaba que

lleva el énfasis dentro de la palabra, llamada sílaba tónica, identificada por un acento escrito o prosódico,

mediante la aplicación de reglas de acentuación. Una vez que la palabra está lista puede ser enviada al

siguiente módulo.

Conversión fonemas-voz:

Para un sistema por concatenación se requiere como primer paso el generar

la base de datos de segmentos. Para este sistema en particular se utilizarán

difonemas

que corresponden a la

sección desde la mitad de un fonema hasta la mitad del siguiente. Se decidió utilizar difonemas debido a que

con una cantidad no muy grande de segmentos (aproximadamente 400) se puede generar una salida de audio

comprensible y la salida es de mejor calidad que usando fonemas simples.

Una vez que se tiene la base de datos de los segmentos, se toman los fonemas que se obtuvieron de

analizar el texto de entrada, se separan en grupos de dos para generar los difonemas requeridos [2-3]. Estos

segmentos son almacenados en un archivo nuevo en formato

wav

(formato básico que almacena la forma de la

onda de la señal entrante, estandarizado por Microsoft) que al final es reproducido.

Figura 2. Estructura básica de un sistema de síntesis de voz por concatenación.

5. Desarrollo de la aplicación

Después de describir el contexto en el cuál se desarrolló el proyecto, a continuación se presentan los pasos

seguidos para lograr la integración de un sintetizador de voz en un PDA.