Dpto. Ingeniería de Comunicaciones

Tesis doctoral

T�tulo	Procesado de voz cantada: T�cnicas y aplicaciones
Estado	Finalizado
Autor	Emilio Molina Martínez
Director/es	Lorenzo José Tardón García , Ana Mª Barbancho Pérez
Universidad	Universidad de M�laga
Centro	Escuela T�cnica Superior de Ingenier�a de Telecomunicaci�n
Departamento	Ingenier�a de Comunicaciones
Fecha lectura	07-07-2017
Archivo	PDF

La voz cantada es una componente esencial de la m�sica en todas las culturas del

mundo, ya que se trata de una forma incre�blemente natural de expresi�n musical.

En consecuencia, el procesado autom�tico de voz cantada tiene un gran impacto

desde la perspectiva de la industria, la cultura y la ciencia. En este contexto, esta

Tesis contribuye con un conjunto variado de t�cnicas y aplicaciones relacionadas con

el procesado de voz cantada, as� como con un repaso del estado del arte asociado

en cada caso.

En primer lugar, se han comparado varios de los mejores estimadores de tono conocidos

para el caso de uso de recuperaci�n por tarareo. Los resultados demuestran que

[Boersma, 1993] (con un ajuste no obvio de par�metros) y [Mauch, 2014], tienen un

muy buen comportamiento en dicho caso de uso dada la suavidad de los contornos

de tono extra�dos.

Adem�s, se propone un novedoso sistema de transcripci�n de voz cantada basada en

un proceso de hist�resis definido en tiempo y frecuencia, as� como una herramienta

para evaluaci�n de voz cantada en Matlab. El inter�s del m�todo propuesto es que

consigue tasas de error cercanas al estado del arte con un m�todo muy sencillo.

La herramienta de evaluaci�n propuesta, por otro lado, es un recurso �til para

definir mejor el problema, y para evaluar mejor las soluciones propuestas por futuros

investigadores.

En esta Tesis tambi�n se presenta un m�todo para evaluaci�n autom�tica de la interpretaci�n vocal.

Usa alineamiento temporal din�mico para alinear la interpretaci�n

del usuario con una referencia, proporcionando de esta forma una puntuaci�n de

precisi�n de afinaci�n y de ritmo. La evaluaci�n del sistema muestra una alta correlaci�n

entre las puntuaciones dadas por el sistema, y las puntuaciones anotadas

por un grupo de m�sicos expertos.

Por otro lado, se presenta un m�todo para el cambio realista de intensidad de

voz cantada. Esta transformaci�n se basa en un modelo param�trico de la envolvente

espectral, y mejora sustancialmente la percepci�n de realismo al compararlo

con software comerciales como Melodyne o Vocaloid. El inconveniente del enfoque

propuesto es que requiere intervenci�n manual, pero los resultados conseguidos arrojan

importantes conclusiones hacia la modificaci�n autom�tica de intensidad con

resultados realistas.

Por �ltimo, se propone un m�todo para la correcci�n de disonancias en acordes

aislados. Se basa en un an�lisis de m�ltiples F0, y un desplazamiento de la frecuencia

de su componente sinusoidal. La evaluaci�n la ha realizado un grupo de m�sicos

entrenados, y muestra un claro incremento de la consonancia percibida despu�s de

la transformaci�n propuesta.