Tesis doctoral
Título | Procesado de voz cantada: Técnicas y aplicaciones |
Estado | Finalizado |
Autor | Emilio Molina Martínez |
Director/es | Lorenzo José Tardón García , Ana Mª Barbancho Pérez |
Universidad | Universidad de Málaga |
Centro | Escuela Técnica Superior de Ingeniería de Telecomunicación |
Departamento | Ingeniería de Comunicaciones |
Fecha lectura | 07-07-2017 |
Archivo |
La voz cantada es una componente esencial de la música en todas las culturas del
mundo, ya que se trata de una forma increíblemente natural de expresión musical.
En consecuencia, el procesado automático de voz cantada tiene un gran impacto
desde la perspectiva de la industria, la cultura y la ciencia. En este contexto, esta
Tesis contribuye con un conjunto variado de técnicas y aplicaciones relacionadas con
el procesado de voz cantada, así como con un repaso del estado del arte asociado
en cada caso.
En primer lugar, se han comparado varios de los mejores estimadores de tono conocidos
para el caso de uso de recuperación por tarareo. Los resultados demuestran que
[Boersma, 1993] (con un ajuste no obvio de parámetros) y [Mauch, 2014], tienen un
muy buen comportamiento en dicho caso de uso dada la suavidad de los contornos
de tono extraídos.
Además, se propone un novedoso sistema de transcripción de voz cantada basada en
un proceso de histéresis definido en tiempo y frecuencia, así como una herramienta
para evaluación de voz cantada en Matlab. El interés del método propuesto es que
consigue tasas de error cercanas al estado del arte con un método muy sencillo.
La herramienta de evaluación propuesta, por otro lado, es un recurso útil para
definir mejor el problema, y para evaluar mejor las soluciones propuestas por futuros
investigadores.
En esta Tesis también se presenta un método para evaluación automática de la interpretación vocal.
Usa alineamiento temporal dinámico para alinear la interpretación
del usuario con una referencia, proporcionando de esta forma una puntuación de
precisión de afinación y de ritmo. La evaluación del sistema muestra una alta correlación
entre las puntuaciones dadas por el sistema, y las puntuaciones anotadas
por un grupo de músicos expertos.
Por otro lado, se presenta un método para el cambio realista de intensidad de
voz cantada. Esta transformación se basa en un modelo paramétrico de la envolvente
espectral, y mejora sustancialmente la percepción de realismo al compararlo
con software comerciales como Melodyne o Vocaloid. El inconveniente del enfoque
propuesto es que requiere intervención manual, pero los resultados conseguidos arrojan
importantes conclusiones hacia la modificación automática de intensidad con
resultados realistas.
Por último, se propone un método para la corrección de disonancias en acordes
aislados. Se basa en un análisis de múltiples F0, y un desplazamiento de la frecuencia
de su componente sinusoidal. La evaluación la ha realizado un grupo de músicos
entrenados, y muestra un claro incremento de la consonancia percibida después de
la transformación propuesta.
Volver