Uso de la transformación de Fourier de orden fraccional al determinar los coeficientes cepstral en las frecuencias mel para la verificación de locutores
Resumen
La voz es una característica biométrica natural con atributos para la verificación y el reconocimiento de locutores. Si se usa la transformación de Fourier de orden fraccional es posible obtener características de la señal de voz en el espacio tiempo-frecuencia con un grado de libertad agregado, representando así de una manera diferente al locutor, de como se hace tradicionalmente con la transformación de Fourier estándar. En este estudio se compara el desempeño de la transformación de Fourier de orden fraccional en un sistema de verificación de locutores dependiente del texto con respecto a la usual representación usando los coeficientes cepstral en las frecuencias mel, MFCC. Los resultados muestran que para una elección apropiada del orden fraccional de la transformada de orden fraccional se obtiene un mejoramiento en la verificación de locutores.
Descargas
Citas
Reynolds D.A. An Overview of Automatic Speaker Recognition Technology. IEEE ICASSP 2002. 2002, vol. IV, pp. 4072-4075.
Bimbot, F.; Bonastre, J.F.; Fredouille, C.; Gravier, G.; MagrinChagnolleau, I.; Meignier, S.; Merlin, T.; Ortega-García, J.; PetrovskaDelacrétaz, D. and Reynolds, D.A. A Tutorial on Text-Independent Speaker Verification. EURASIP 2004. 2004, vol. 4, pp. 430-451.
Srikaya, R.; Gao, Y. and Saon, G. Fractional Fourier Transform features for speech recognition. IEEE ICASSP 2004. 2004, vol. I, pp. 529-532.
Ozaktas, H.M.; Zalevsky, Z. and Kutay, M.A. The Fractional Fourier Transform: with applications in optics and signal processing. Chichester: John Wiley & Sons, 2001. Wiley Series in Pure and Applied Optics Series , #39, 513pp. ISBN: 978-0471963462.
Namias, V. The fractional order Fourier transform and its application to quantum mechanics. J. Inst. Math. Appl., 1980, vol. 25, pp. 241-265.
Almeida, L.B. The Fractional Fourier Transform and Time-Frequency Representations. IEEE Transactions on signal processing. 1994, vol. 42, núm. 11, pp. 3084-3091.
Torres, R.; Pellat-Finet P. and Torres Y. Fractional convolution, fractional correlation and their translation invariance properties. Signal processing. 2010, vol. 90, núm. 6, pp. 1976-1984.
Faúndez Z., M. Tratamiento digital de voz e imagen y aplicación a la multimedia. México: Marcombo, 2000. 288pp. ISBN: 978- 8426712448.
Gold B. and Morgan N. Speech and audio signal processing. New York: John Wiley & Sons, first edition, 1999. 537pp. ISBN: 978- 8126508228.
Stevens, S.S.; Volkmann, J. and E. B. Newman, E.B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, vol. 8, núm. 3, pp. 185–190.
White, L.S. and King, S. The EUSTACE speech corpus. Centre for Speech Technology Research, University of Edinburgh. 2003. [web online]. . [Consulta: 01-4- 2011]
Malcolm Slaney. Auditory Toolbox version 2. Interval Research Corporation. 1998. [web online]. . [Consulta: 01-4-2011]
Wang, N.; Ching P.C. and Lee, T. Robust Speaker Verification Using Phase Information of Speech. National Cheng Kung University. The Proceedings of ISCLSP 2010, The 7th International Symposium on Chinese Spoken Language Processing. Tainan & Sun Moon Lake, Taiwan, november 29 to december 3 de 2010. IEEE Conference Publications, pp. 483-487.