Detalles del proyecto
Descripción
En el contexto actual de avances tecnológicos, los modelos de aprendizaje profundo han alcanzado un impacto significativo en el desarrollo de aplicaciones en el mundo real. Estas aplicaciones abarcan una amplia gama de áreas, desde la visión artificial y el procesamiento del lenguaje natural hasta las finanzas, la robótica y el reconocimiento de voz, redefiniendo cómo abordamos tareas complejas. Los modelos de aprendizaje profundo, con sus redes neuronales profundas, aprenden de forma autónoma a partir de vastos conjuntos de datos, independientemente del dominio de la aplicación.
Sin embargo, surge un desafío esencial: la confiabilidad y precisión de las predicciones generadas por estos modelos en aplicaciones cotidianas. La efectividad de estas predicciones se ve influenciada por múltiples factores, entre ellos la calidad intrínseca de los datos de entrenamiento y evaluación, así como la complejidad inherente a la arquitectura del modelo. En este panorama, la evaluación cuantitativa de la calidad de los datos se alza como una necesidad destacada. Esta necesidad se intensifica aún más en el caso de los datos no estructurados, que prevalecen en aplicaciones como el reconocimiento automático del habla (ASR), donde las señales de audio, al ser datos no estructurados, se transforman en transcripciones precisas mediante la inferencia del modelo
En este contexto, es crucial explorar cómo medir rigurosamente la calidad de los datos, particularmente en términos técnicos y computacionales. Además, se plantea la interrogante crucial sobre cómo estimar la pérdida de confiabilidad inherente a las predicciones del modelo, ya sea debido a la variabilidad en la adquisición de datos de entrada o las características intrínsecas de la arquitectura del modelo. Como respuesta a estas inquietudes, esta investigación se propone realizar una evaluación del desempeño del modelo de reconocimiento de voz Whisper, desarrollado por OpenAl. Esta evaluación busca cuantificar tanto la influencia del modelo en sí como también la calidad de los datos en el rendimiento del sistema ASR.
Tal análisis no solo adquiere relevancia por la necesidad de comprender y mejorar la confiabilidad de los sistemas de reconocimiento de voz en un entorno tecnológico en constante evolución, sino que también se apoya en la elección estratégica de Whisper como objeto de estudio. Whisper, nacido de una compañía de renombre
En el ámbito de la inteligencia artificial, representa una innovación reciente con potencial industrial. La aplicación de técnicas avanzadas, como Montecarlo Dropout y la evaluación de entropía, permite una comprensión profunda del desempeño de Whisper y su adaptación a diferentes condiciones acústicas y contextos de uso. De esta manera, se propone abordar la cuestión esencial de la confiabilidad y el desempeño de sistemas de reconocimiento de voz basados en modelos de aprendizaje profundo. Mediante la cuantificación de la calidad de los datos y la aplicación de técnicas avanzadas de evaluación de incertidumbres.
En el presente proyecto se pretende entonces explorar y proponer una o más técnicas novedosas de estimación de incertidumbre, basadas en los datos de entrenamiento. El análisis de la efectividad de la o las técnicas propuestas se realizará con audios en español, dada la subrepresentación de esta lengua en estudios de campo.
Sin embargo, surge un desafío esencial: la confiabilidad y precisión de las predicciones generadas por estos modelos en aplicaciones cotidianas. La efectividad de estas predicciones se ve influenciada por múltiples factores, entre ellos la calidad intrínseca de los datos de entrenamiento y evaluación, así como la complejidad inherente a la arquitectura del modelo. En este panorama, la evaluación cuantitativa de la calidad de los datos se alza como una necesidad destacada. Esta necesidad se intensifica aún más en el caso de los datos no estructurados, que prevalecen en aplicaciones como el reconocimiento automático del habla (ASR), donde las señales de audio, al ser datos no estructurados, se transforman en transcripciones precisas mediante la inferencia del modelo
En este contexto, es crucial explorar cómo medir rigurosamente la calidad de los datos, particularmente en términos técnicos y computacionales. Además, se plantea la interrogante crucial sobre cómo estimar la pérdida de confiabilidad inherente a las predicciones del modelo, ya sea debido a la variabilidad en la adquisición de datos de entrada o las características intrínsecas de la arquitectura del modelo. Como respuesta a estas inquietudes, esta investigación se propone realizar una evaluación del desempeño del modelo de reconocimiento de voz Whisper, desarrollado por OpenAl. Esta evaluación busca cuantificar tanto la influencia del modelo en sí como también la calidad de los datos en el rendimiento del sistema ASR.
Tal análisis no solo adquiere relevancia por la necesidad de comprender y mejorar la confiabilidad de los sistemas de reconocimiento de voz en un entorno tecnológico en constante evolución, sino que también se apoya en la elección estratégica de Whisper como objeto de estudio. Whisper, nacido de una compañía de renombre
En el ámbito de la inteligencia artificial, representa una innovación reciente con potencial industrial. La aplicación de técnicas avanzadas, como Montecarlo Dropout y la evaluación de entropía, permite una comprensión profunda del desempeño de Whisper y su adaptación a diferentes condiciones acústicas y contextos de uso. De esta manera, se propone abordar la cuestión esencial de la confiabilidad y el desempeño de sistemas de reconocimiento de voz basados en modelos de aprendizaje profundo. Mediante la cuantificación de la calidad de los datos y la aplicación de técnicas avanzadas de evaluación de incertidumbres.
En el presente proyecto se pretende entonces explorar y proponer una o más técnicas novedosas de estimación de incertidumbre, basadas en los datos de entrenamiento. El análisis de la efectividad de la o las técnicas propuestas se realizará con audios en español, dada la subrepresentación de esta lengua en estudios de campo.
Objetivo General
Evaluar el desempeño del sistema de reconocimiento de voz Whisper en la tarea de transcripción de audio, mediante cálculos de incertidumbre epistémica y
métricas de calidad de audios.
métricas de calidad de audios.
Lineas de Investigación
Evaluar el desempeño del sistema de reconocimiento de voz Whisper en la tarea de transcripción de audio, mediante cálculos de incertidumbre epistémica y
métricas de calidad de audios.
métricas de calidad de audios.
| Estado | Finalizado |
|---|---|
| Fecha de inicio/Fecha fin | 1/01/24 → 31/12/25 |
Palabras clave
- Aprendizaje Profundo
- Inteligencia Artificial
- Reconocimiento de voz
- Whisper
Huella digital
Explore los temas de investigación que se abordan en este proyecto. Estas etiquetas se generan con base en las adjudicaciones/concesiones subyacentes. Juntos, forma una huella digital única.