Uso de la transformación de Fourier de orden fraccional al determinar los coeficientes cepstral en las frecuencias mel para la verificación de locutores

  • Edgar F. Maldonado Orduz
  • David Daniel Bertel Mendoza
  • Yezid Torres Moreno
Palabras clave: verificación dependiente del texto, verificación de locutores, transformación de Fourier de orden fraccional, coeficientes MFCC, procesamiento de señales

Resumen

La voz es una característica biométrica natural con atributos para la verificación y el reconocimiento de locutores. Si se usa la transformación de Fourier de orden fraccional es posible obtener características de la señal de voz en el espacio tiempo-frecuencia con un grado de libertad agregado, representando así de una manera diferente al locutor, de como se hace tradicionalmente con la transformación de Fourier estándar. En este estudio se compara el desempeño de la transformación de Fourier de orden fraccional en un sistema de verificación de locutores dependiente del texto con respecto a la usual representación usando los coeficientes cepstral en las frecuencias mel, MFCC. Los resultados muestran que para una elección apropiada del orden fraccional de la transformada de orden fraccional se obtiene un mejoramiento en la verificación de locutores.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor

Edgar F. Maldonado Orduz

Recibió su título de Ingeniero Electrónico de la Universidad Industrial de Santander, Colombia, en el año 2011. Master en Comunicaciones Móbiles de Télécom ParisTech, Francia, actualmente es consultor de telecomunicaciones en Paris, Francia. Su área de interés actual son los sistemas de telecomunicaciones y sistemas OFDM

David Daniel Bertel Mendoza

Recibió su grado de Ingeniero Electrónico de la Universidad Industrial de Santander en el año 2011. Ha trabajado como asistente de investigación en el campo de la Radiopropagación y Servicios de localización en el grupo de investigación RadioGIS, Bucaramanga, Colombia, y en el área de tratamiento de tratamiento imágenes en Fraunhofer IPT, Aachen, Alemania. Actualmente realiza tesis de Maestría en la RWTH Aachen University, Aachen, Alemania, en Carácterisacion de antenas activas.

Yezid Torres Moreno

Recibió su grado de Doctor en óptica y tratamiento de la señal en la Universidad de Franche Comté, Besançon, Francia en 1983. Se vinculó a la Escuela de Física de la Universidad Industrial de Santander, Bucaramanga, Colombia en 1984 donde es Profesor Titular de física. Ha realizado varias estancias postdoctorales, en el Laboratoire d’Optique P.M. Duffieux, Besançon, France, le Centre d’Optique Photonique et laser COPL, Quebec, Canada, Laboratorio de Procesado de Imagenes, Terrassa, España, École Normale Supérieure de Télècommunications de Bretagne, Brest, Francia y la Florida Atlantic University, Boca Raton, USA. Su campo de interés actual, en donde orienta su investigación, es el de los haces con momento angular orbital y las aplicaciones de la técnica de la transformada de Fourier de tiempo promedio.

Citas

Reynolds D.A. An Overview of Automatic Speaker Recognition Technology. IEEE ICASSP 2002. 2002, vol. IV, pp. 4072-4075.

Bimbot, F.; Bonastre, J.F.; Fredouille, C.; Gravier, G.; MagrinChagnolleau, I.; Meignier, S.; Merlin, T.; Ortega-García, J.; PetrovskaDelacrétaz, D. and Reynolds, D.A. A Tutorial on Text-Independent Speaker Verification. EURASIP 2004. 2004, vol. 4, pp. 430-451.

Srikaya, R.; Gao, Y. and Saon, G. Fractional Fourier Transform features for speech recognition. IEEE ICASSP 2004. 2004, vol. I, pp. 529-532.

Ozaktas, H.M.; Zalevsky, Z. and Kutay, M.A. The Fractional Fourier Transform: with applications in optics and signal processing. Chichester: John Wiley & Sons, 2001. Wiley Series in Pure and Applied Optics Series , #39, 513pp. ISBN: 978-0471963462.

Namias, V. The fractional order Fourier transform and its application to quantum mechanics. J. Inst. Math. Appl., 1980, vol. 25, pp. 241-265.

Almeida, L.B. The Fractional Fourier Transform and Time-Frequency Representations. IEEE Transactions on signal processing. 1994, vol. 42, núm. 11, pp. 3084-3091.

Torres, R.; Pellat-Finet P. and Torres Y. Fractional convolution, fractional correlation and their translation invariance properties. Signal processing. 2010, vol. 90, núm. 6, pp. 1976-1984.

Faúndez Z., M. Tratamiento digital de voz e imagen y aplicación a la multimedia. México: Marcombo, 2000. 288pp. ISBN: 978- 8426712448.

Gold B. and Morgan N. Speech and audio signal processing. New York: John Wiley & Sons, first edition, 1999. 537pp. ISBN: 978- 8126508228.

Stevens, S.S.; Volkmann, J. and E. B. Newman, E.B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, vol. 8, núm. 3, pp. 185–190.

White, L.S. and King, S. The EUSTACE speech corpus. Centre for Speech Technology Research, University of Edinburgh. 2003. [web online]. . [Consulta: 01-4- 2011]

Malcolm Slaney. Auditory Toolbox version 2. Interval Research Corporation. 1998. [web online]. . [Consulta: 01-4-2011]

Wang, N.; Ching P.C. and Lee, T. Robust Speaker Verification Using Phase Information of Speech. National Cheng Kung University. The Proceedings of ISCLSP 2010, The 7th International Symposium on Chinese Spoken Language Processing. Tainan & Sun Moon Lake, Taiwan, november 29 to december 3 de 2010. IEEE Conference Publications, pp. 483-487.

Publicado
2019-07-25
Cómo citar
Maldonado Orduz, E., Bertel Mendoza, D., & Torres Moreno, Y. (2019). Uso de la transformación de Fourier de orden fraccional al determinar los coeficientes cepstral en las frecuencias mel para la verificación de locutores. Entre Ciencia E Ingeniería, 7(14), 50-57. Recuperado a partir de https://revistas.ucp.edu.co/index.php/entrecienciaeingenieria/article/view/608
Sección
Artículos