Diseño de un sintetizador de voz para el idioma tének y desarrollos lingüísticos de este

Colaboradores externos
Dr. José Abel Herrera Camacho de la Facultad de Ingeniería de la UNAM

Se pretende diseñar un sintetizador de voz para el tének, en dos de sus tres variantes ( esto es, trabajaremos con la variante occidental y la oriental), usando redes neuronales profundas (DNN's).

Para tal efecto, se debe considerar que las técnicas basadas en DDN ́s utilizan grandes cantidades de corpus, del orden de 100 a 1,000 horas de grabaciones en el idioma a sintetizar.

En el caso de las "low resources languages" (lenguas con escasos recursos lingüísticos disponibles en la red), como el caso de tének, se han diseñado variantes de DNN's. Un propósito de este proyecto es analizar estas variantes de diseño, y al mismo tiempo ofrecer en la red una mayor cantidad de datos orales de esta lengua en dos de sus variantes que pueden ser usados con múltiples propósitos además del ámbito lingüístico y de la lingüística computacional.

Por lo anteriormente expresado la primera fase del proyecto se centrará en la recolección de grabaciones en audio de distintos actos de habla espontáneos y elicitados en tének; la recolección de datos lingüísticos se realizará en las dos variantes señaladas. En caso de no tener las suficientes grabaciones o, que alguno de ellos no fuese lo suficientemente nítido para nuestros propósitos se deberá realizar una segunda temporada de trabajo de campo para obtener nuevas grabaciones que nos permitan robustecer el corpus lingüístico del que partiremos para la síntesis de voz.

En tanto que en la CDMX contamos con escasos hablantes de la lengua, la recolección de los datos lingüísticos se realizará en las localidades con hablantes originarios, y formular convenios para grabar in situ. La tarea de la lingüista colaboradora con el proyecto en esta primera fase consistirá en recolectar, transcribir y analizar el material que fungirá como corpus que, a su vez, alimentará el programa.

Una vez recolectados los datos lingüísticos se deben adaptar las grabaciones a su uso para síntesis de voz, en especial habrá que reducir el ruido ambiental con un mínimo de degradación de la voz original. En consecuencia, se hará un análisis y uso de métodos de reducción de ruido ambiental, en caso de no obtener los programas de estos métodos, se tendrá que diseñarlos.

Ya obtenidos los corpus, se probará la síntesis con un método muy conocido de Tracoton-Wavenet, que utiliza las técnicas LSTM (long short-term memory) y RNN ( RecurrentNeural Nets). Para la utilización de este sistema se hará un estudio de "causal and dilated" Convolutional Neural Networks (CNN):

Posteriormente se analizan algunas técnicas más recientes como: "generative adversial neural network" (Guo, 2019), "auto-encoders" (Shamsi, 2019), y otras.

Se prevé que puedan alimentar a nuestro sistema algunas reglas gramaticales del tének, de manera que el sistema de síntesis sea más rápido de converger. Como parte del trabajo colaborativo, también en esta primera fase se prevé instruir a los miembros del equipo de ingeniería en el conocimiento general de la gramática en los ámbitos fonológico, morfológico y sintáctico, trabajo que correrá a cargo del experto lingüista del proyecto. Así se tendrán elementos lingüísticos de expertos en la materia, para una síntesis de voz de alta calidad.

Se desarrollarán sistemas de reconocimiento del locutor en ambientes forenses. En particular, usando técnicas basadas en i-vectors combinadas con PDLA'S (Probablistic Linear Discriminant Analysis) (Hansen, 2015), para el español hablado en el centro de México.

También se aplicarán las técnicas basadas en DNN's para este tipo de reconocimiento. Primeramente se hará un estudio del desarrollo de estas técnicas.